Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 15
How to use doan2506/vietnamese-bi-encoder-finetuned with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("doan2506/vietnamese-bi-encoder-finetuned")
sentences = [
"Tìm lực tác dụng lên điện tích chuyển động trong từ trường đều",
"Hertz thấy rằng tại mọi điểm M trong không gian đều có cặp CĐĐT Thí nghiệm Hertz 𝑬và CĐTT 𝑯. + Cả 𝑬và 𝑯đều biến thiên theo thời gian. + Nếu môi trường là đồng chất và đẳng hướng: Thí nghiệm Hertz chứng tỏ điện từ trường biến thiên đã truyền đi trong không gian, tạo thành sóng điện từ. trong đó: -(cid:2842)⃗là mật độ dòng điện, Như vậy:Sóng điện từ (ĐT) là trường điện từ biến thiên, truyền -và lần lượt là mật độ điện tích mặt và khối. đi trong không gian. Do sóng ĐTtruyền trong môi trường không dẫn (không có 10.2. Các tính chất của sóng điện từ dòng điện) và không có điện tích: 10.2.1. Hệ phương trình Maxwell Hệ phương trình Maxwell cho trường ĐT dưới dạng vi phân Các PT Maxwell trở thành: như sau: 10.2.2.",
"+ Do d = bsin, nên (Tự học -trong tài liệu đã gửi) + Gọi Wm() và Wm(0) là năng lượng của khung ở vị trí ban đầu 4.8. Chuyển động của hạt tích điện trong từ trường + Hơn nữa, pm= IS, nên khi ấy: và vị trí cuối = 0 của quá trình dịch chuyển, ta có: 4.8.1. Lực từ tác dụng lên hạt điện tích chuyển động Giả sử điện tích q, chuyển động vận tốc 𝐯trong từ trường 𝐁. (Chiều của 𝐩mhướng lên trên, phương với mp (𝐩m, 𝐁)) hay có thể viết dưới dạng: Giống một phần tử dòng điện I𝐝𝒍⃗, thỏa mãn điều kiện: (Xem lại phần 4.2.5) 5 16/03/2025 + Lực từ tác dụng lên phần tử dòng điện: 4.8.2. Chuyển động của hạt tích điện trong từ trường đều Véctơ 𝐁 có tọa độ:",
"lib Các file thư viện của MySQL. scripts mysql_install_db script, được sử dụng để khởi tạo file dữ liệu và các tài khoản. share SQL scripts để sửa các đặc quyền, cũng như tập các file ngôn ngữ. • Thư mục Bin chứa các file chương trình của MySQL. Dưới đây là mô tả một số chương trình trong thư mục: Tên chương trình Mô tả chức năng mysqld MySQL server mysql Công cụ khách giúp thực thi tương tác các câu lệnh SQL Trợ giúp các tác vụ quản trị khác nhau (hiện thị trạng thái, tắt mysqladmin server,..). mysqldump Lưu nội dung của CSDL MySQL ra ngoài mysqlimport Nhập dữ liệu vào bảng từ file mysqlshow Hiển thị thông tin về CSDL, bảng, cột myisamchk Kiểm tra sự toàn vẹn của các file bảng MyISAM và sửa chữa"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for retrieval.
SentenceTransformer(
(0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'RobertaModel'})
(1): Pooling({'embedding_dimension': 768, 'pooling_mode': 'mean', 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
queries = [
'Tìm lực tác dụng lên điện tích chuyển động trong từ trường đều',
]
documents = [
'+ Do d = bsin\uf061, nên (Tự học -trong tài liệu đã gửi) + Gọi Wm(\uf061) và Wm(0) là năng lượng của khung ở vị trí ban đầu 4.8. Chuyển động của hạt tích điện trong từ trường + Hơn nữa, pm= IS, nên khi ấy: \uf061và vị trí cuối \uf061= 0 của quá trình dịch chuyển, ta có: 4.8.1. Lực từ tác dụng lên hạt điện tích chuyển động \uf071Giả sử điện tích q, chuyển động vận tốc 𝐯trong từ trường 𝐁. (Chiều của 𝐩mhướng lên trên, phương \uf05evới mp (𝐩m, 𝐁)) hay có thể viết dưới dạng: \uf05bGiống một phần tử dòng điện I𝐝𝒍⃗, thỏa mãn điều kiện: (Xem lại phần 4.2.5) 5 16/03/2025 + Lực từ tác dụng lên phần tử dòng điện: 4.8.2. Chuyển động của hạt tích điện trong từ trường đều \uf05bVéctơ 𝐁 có tọa độ:',
'đặt trong chân không cách nhau 1 m, thì gây nên mỗi mét chiều \uf071Áp dụng quy tắc bàn tay trái, ta thấy: dài mỗi dây một lực bằng 2\uf0b410-7N. + Lực từ tác dụng lên BC hướng xuống dưới, và lên cạnh DA hướng lên trên. Hai 4.7.3. Tác dụng của từ trường đều lên một mạch điện kín lực này triệt tiêu nhau. \uf071Xét khung dây dẫn cứng ABCD có cạnh a và b, và có dòng + Lực từ𝐅⃗tác dụng lên AB hướng về điện I chạy qua. Khung đặt trong từ trường đều 𝐁có phương phía trước, và 𝐅⃗’ lên CD hướng về phía sau. \uf05evới AB và CD. Cả 2 lực này luôn \uf05evới AB, CD và 𝐁, có độ + Giả sử khung có thể quay quanh trục thẳng đứng \uf044của nó. lớn bằng nhau, nhưng ngược chiều nhau. Sự hút và đẩy nhau của 2 dòng điện thẳng song song cùng chiều(bên trái)',
'Không ngạc nhiên khi rất nhiều truy vấn yêu cầu thông tin từ nhiều bảng dữ liệu khác nhau. Ví dụ muốn đưa ra thông tin khách hàng của các đơn hàng, cần kết hợp thông tin từ hai bảng dữ liệu là customers và orders. Kết hợp các bảng dữ liệu để tạo ra một bảng suy diễn được gọi là phép nối (join). Trong bài này, chúng ta sẽ làm quen với phép toán nối để truy vấn dữ liệu từ nhiều bảng: INNER JOIN, LEFT JOIN, SELF JOIN 1. PHÉP NỐI TRONG (INNER JOIN) INNER JOIN hay còn gọi là phép nối trong, là một phần tùy chọn của câu lệnh SELECT. Nó xuất hiện liền ngay sau mệnh đề FROM. Trước khi sử dụng INNER JOIN, phải xác định rõ các tiêu chí sau đây:',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.5014, 0.1016, 0.1025]])
valInformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.0833 |
| cosine_accuracy@3 | 0.3143 |
| cosine_accuracy@5 | 0.4429 |
| cosine_accuracy@10 | 0.5595 |
| cosine_precision@1 | 0.0833 |
| cosine_precision@3 | 0.1048 |
| cosine_precision@5 | 0.0886 |
| cosine_precision@10 | 0.056 |
| cosine_recall@1 | 0.0833 |
| cosine_recall@3 | 0.3143 |
| cosine_recall@5 | 0.4429 |
| cosine_recall@10 | 0.5595 |
| cosine_ndcg@10 | 0.3035 |
| cosine_mrr@10 | 0.223 |
| cosine_map@100 | 0.2369 |
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| modality | text | text | text |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
Khái niệm phần mềm như thế nào |
Công nghệ phần mềm Kỹ nghệ Phần mềm (SE) Nội dung • Khái niệm về SE • Các yếu tố cơ bản của SE • Các giai đoạn phát triển của SE • Vòng đời phát triển • Các thách thức cho phát triển PM • Chi phí cho phát triển PM • Một số vấn đề về đạo đức nghề nghiệp Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 2 Một số định nghĩa về SE Software Engineering (SE) • SE là thiết lập và sử dụng các nguyên lý công nghệ đúng đắn để được phần mềm một cách kinh tế, vừa tin cậy vừa làm việc hiệu quả trên các máy thực. [Bauer 1969] • SE là nguyên lý kỹ nghệ liên quan đến tất cả các mặt lý thuyết, phương pháp, và công cụ của phần mềm. [Sommerville 1995] Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 3 |
mặt lý thuyết, phương pháp, và công cụ của phần mềm. [Sommerville 1995] Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 3 Một số định nghĩa về SE Software Engineering (SE) • SE là bộ môn tích hợp cả quy trình, các phương pháp, các công cụ để phát triển phần mềm máy tính. [Pressman 1995] Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 4 Khái niệm về SE • là ngành công nghiệp liên quan đến mọi khía cạnh của việc phát triển phần mềm (thu thập, phân tích và đặc tả; thiết thế, lập trình, kiểm thử, chuyển giao, vận hành và ảo trì, …) • Kỹ nghệ: xây dựng PM bằng cách ứng dụng các lý thuyết, phương pháp, công cụ một cách chọn lọc và cố gắng tạo ra các giải |
Khái niệm phần mềm như thế nào |
Công nghệ phần mềm Kỹ nghệ Phần mềm (SE) Nội dung • Khái niệm về SE • Các yếu tố cơ bản của SE • Các giai đoạn phát triển của SE • Vòng đời phát triển • Các thách thức cho phát triển PM • Chi phí cho phát triển PM • Một số vấn đề về đạo đức nghề nghiệp Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 2 Một số định nghĩa về SE Software Engineering (SE) • SE là thiết lập và sử dụng các nguyên lý công nghệ đúng đắn để được phần mềm một cách kinh tế, vừa tin cậy vừa làm việc hiệu quả trên các máy thực. [Bauer 1969] • SE là nguyên lý kỹ nghệ liên quan đến tất cả các mặt lý thuyết, phương pháp, và công cụ của phần mềm. [Sommerville 1995] Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 3 |
Công nghệ phần mềm Thiết kế kiến trúc Nội dung • Định nghĩa kiến trúc phần và một số khái niệm • Thiết kế kiến trúc • Một số kiểu kiến trúc Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 2 Nội dung • Định nghĩa kiến trúc phần mềm và Một số khái niệm • Thiết kế kiến trúc • Một số kiểu kiến trúc Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 3 Định nghĩa KTPM • Có nhiều trường phái • Richard N. Taylor và đồng nghiệp – “A software system’s architecture is the set of principal design decisions about the system” – Kiến trúc phần mềm là bản thiết kế cho việc xây dựng và tiến hóa phần mềm – Các quyết định thiết kế bao gồm nhiều khía cạnh của hệ thống đang được phát triển • Cấu trúc • Hành vi |
Khái niệm phần mềm như thế nào |
Công nghệ phần mềm Kỹ nghệ Phần mềm (SE) Nội dung • Khái niệm về SE • Các yếu tố cơ bản của SE • Các giai đoạn phát triển của SE • Vòng đời phát triển • Các thách thức cho phát triển PM • Chi phí cho phát triển PM • Một số vấn đề về đạo đức nghề nghiệp Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 2 Một số định nghĩa về SE Software Engineering (SE) • SE là thiết lập và sử dụng các nguyên lý công nghệ đúng đắn để được phần mềm một cách kinh tế, vừa tin cậy vừa làm việc hiệu quả trên các máy thực. [Bauer 1969] • SE là nguyên lý kỹ nghệ liên quan đến tất cả các mặt lý thuyết, phương pháp, và công cụ của phần mềm. [Sommerville 1995] Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 3 |
– Cấu trúc phần mềm thành nhiều tầng Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 10 Các thuộc tính chất lượng • Thuộc tính thiết kế (Design qualities) • Thuộc tính thời gian thực thi (Run-time qualities) • Thuộc tính hệ thống (System qualities) • Thuộc tính người dùng (User qualities) Nguồn: https://msdn.microsoft.com/en-us/library/ee658094.aspx Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 11 Nội dung • Định nghĩa kiến trúc phần mềm và một số khái niệm • Thiết kế kiến trúc • Một số kiểu kiến trúc Bộ môn Công nghệ phần mềm -Khoa CNTT -Trường ĐHCN -ĐHQGHN 12 Các nguyên lý thiết kế • Phân tách các khía cạnh quan tâm (Separation of concerns): chia ứng dụng thành các phần càng ít |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| modality | text | text | text |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
Lực từ tác dụng lên khung dây dẫn cứng ABCD là bao nhiêu? |
đặt trong chân không cách nhau 1 m, thì gây nên mỗi mét chiều Áp dụng quy tắc bàn tay trái, ta thấy: dài mỗi dây một lực bằng 210-7N. + Lực từ tác dụng lên BC hướng xuống dưới, và lên cạnh DA hướng lên trên. Hai 4.7.3. Tác dụng của từ trường đều lên một mạch điện kín lực này triệt tiêu nhau. Xét khung dây dẫn cứng ABCD có cạnh a và b, và có dòng + Lực từ𝐅⃗tác dụng lên AB hướng về điện I chạy qua. Khung đặt trong từ trường đều 𝐁có phương phía trước, và 𝐅⃗’ lên CD hướng về phía sau. với AB và CD. Cả 2 lực này luôn với AB, CD và 𝐁, có độ + Giả sử khung có thể quay quanh trục thẳng đứng của nó. lớn bằng nhau, nhưng ngược chiều nhau. Sự hút và đẩy nhau của 2 dòng điện thẳng song song cùng chiều(bên trái) |
chiều ngón cái choãi ra là chiều của lực từ. tắc vặn nút chai) và có độ lớn: Như vậy:Hai dòng điện // cùng chiều thì hút nhau. Tương tự như trên, nhưng I1và I2ngược chiều nhau, ta sẽ có Chú ý:Người ta dựa vào lực tương tác để định nghĩa Ampe như + Ban đầu, mặt khung không với 𝐁, kết luận sau: Hai dòng điện // ngược chiều thì đẩy nhau. sau: Ampe là cường độ của 1 dòng điện không đổi chạy qua hai Véctơ mômen từ𝐩mcủa nó hợp với𝐁 dây dẫn thẳng song song dài vô hạn, tiết diện nhỏ không đáng kể, một góc . đặt trong chân không cách nhau 1 m, thì gây nên mỗi mét chiều Áp dụng quy tắc bàn tay trái, ta thấy: dài mỗi dây một lực bằng 210-7N. + Lực từ tác dụng lên BC hướng xuống |
Lực từ tác dụng lên khung dây dẫn cứng ABCD là bao nhiêu? |
đặt trong chân không cách nhau 1 m, thì gây nên mỗi mét chiều Áp dụng quy tắc bàn tay trái, ta thấy: dài mỗi dây một lực bằng 210-7N. + Lực từ tác dụng lên BC hướng xuống dưới, và lên cạnh DA hướng lên trên. Hai 4.7.3. Tác dụng của từ trường đều lên một mạch điện kín lực này triệt tiêu nhau. Xét khung dây dẫn cứng ABCD có cạnh a và b, và có dòng + Lực từ𝐅⃗tác dụng lên AB hướng về điện I chạy qua. Khung đặt trong từ trường đều 𝐁có phương phía trước, và 𝐅⃗’ lên CD hướng về phía sau. với AB và CD. Cả 2 lực này luôn với AB, CD và 𝐁, có độ + Giả sử khung có thể quay quanh trục thẳng đứng của nó. lớn bằng nhau, nhưng ngược chiều nhau. Sự hút và đẩy nhau của 2 dòng điện thẳng song song cùng chiều(bên trái) |
Véctơ cảm ứng từ và cường độ từ trường Chú ý: Ba véctơ 𝒓, d𝒍⃗, và 𝐧hợp + Công thức trên có thể biểu diễn dưới dạng sau: 4.2.1. Khái niệm từ trường thành một tam diện thuận. Bấtkỳdòngđiệnnàocũngsinhratừtrườngxungquanhnó. Định luật Ampe: + Nếuđặtmộtdòngđiệnkhácquanhnó, thìdòngđiệnnàysẽ + Lực từ doI.d𝒍⃗tác dụng lên (ký hiệu có thể thay bằng : tích có hướng véctơ) chịutácdụngcủamộtlựctừ. I là o. d m 𝒍⃗ o ột c ù v n éc g t ơ đ ặ d t 𝐅 ⃗ t o r . o ng chân không Tương tác hai phần tử dòng điện + Nếu trong môi trường có độ từ thẩm ,công thức trở thành: dò + n T g h đ ô iệ n n g k q h u á a c t v ừ ớ t i r v ư ậ ờ n ng tố m cb à ằ l n ự g c v từ ận tr t u ố y c ề á n n t h ừ s d á ò n n g g . điệnnàytới |
Làm thế nào để khung dây quay trong từ trường điện? |
lớn bằng nhau, nhưng ngược chiều nhau. Sự hút và đẩy nhau của 2 dòng điện thẳng song song cùng chiều(bên trái) và ngược chiều(bên phải) 𝐅⃗và 𝐅⃗’ tạo thành một ngẫu lực, làm khung quay quanh + Khi khung quay một góc d, công của ngẫu lực từ: Năng lượng khung dây trong từ trường: cho đến khi mặt khung với 𝐁. Khi ấy, 𝐩mvà𝐁sẽ cùng chiều nhau. (Dấu trừ thể hiện lực từ sinh công phát động –Đọc thêm tài liệu) hay + Mômen của ngẫu lực có độ lớn: Công của ngẫu lực từ đưa khung về vị trí cân bằng: (d là khoảng cách giữa hai lực) 4.7.4. Công của lực từ + Do d = bsin, nên (Tự học -trong tài liệu đã gửi) + Gọi Wm() và Wm(0) là năng lượng của khung ở vị trí ban đầu 4.8. |
đặt trong chân không cách nhau 1 m, thì gây nên mỗi mét chiều Áp dụng quy tắc bàn tay trái, ta thấy: dài mỗi dây một lực bằng 210-7N. + Lực từ tác dụng lên BC hướng xuống dưới, và lên cạnh DA hướng lên trên. Hai 4.7.3. Tác dụng của từ trường đều lên một mạch điện kín lực này triệt tiêu nhau. Xét khung dây dẫn cứng ABCD có cạnh a và b, và có dòng + Lực từ𝐅⃗tác dụng lên AB hướng về điện I chạy qua. Khung đặt trong từ trường đều 𝐁có phương phía trước, và 𝐅⃗’ lên CD hướng về phía sau. với AB và CD. Cả 2 lực này luôn với AB, CD và 𝐁, có độ + Giả sử khung có thể quay quanh trục thẳng đứng của nó. lớn bằng nhau, nhưng ngược chiều nhau. Sự hút và đẩy nhau của 2 dòng điện thẳng song song cùng chiều(bên trái) |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
per_device_train_batch_size: 32per_device_eval_batch_size: 16learning_rate: 2e-05num_train_epochs: 10lr_scheduler_type: cosinewarmup_steps: 0.1fp16: Truetf32: Falseload_best_model_at_end: Truebatch_sampler: no_duplicatesdo_predict: Falseprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 16gradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 10max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: Nonewarmup_ratio: Nonewarmup_steps: 0.1log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Trueenable_jit_checkpoint: Falsesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseuse_cpu: Falseseed: 42data_seed: Nonebf16: Falsefp16: Truebf16_full_eval: Falsefp16_full_eval: Falsetf32: Falselocal_rank: -1ddp_backend: Nonedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonedisable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Nonegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Truepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_for_metrics: []eval_do_concat_batches: Trueauto_find_batch_size: Falsefull_determinism: Falseddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueuse_cache: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss | val_cosine_ndcg@10 |
|---|---|---|---|---|
| -1 | -1 | - | - | 0.2357 |
| 0.0476 | 5 | 2.3101 | - | - |
| 0.0952 | 10 | 2.0758 | - | - |
| 0.1429 | 15 | 2.2552 | - | - |
| 0.1905 | 20 | 1.7265 | - | - |
| 0.2381 | 25 | 1.9491 | - | - |
| 0.2857 | 30 | 1.7976 | - | - |
| 0.3333 | 35 | 1.6072 | - | - |
| 0.3810 | 40 | 1.5065 | - | - |
| 0.4286 | 45 | 1.6120 | - | - |
| 0.4762 | 50 | 1.3084 | - | - |
| 0.5238 | 55 | 1.3673 | - | - |
| 0.5714 | 60 | 1.3267 | - | - |
| 0.6190 | 65 | 1.1281 | - | - |
| 0.6667 | 70 | 1.0791 | - | - |
| 0.7143 | 75 | 1.0648 | - | - |
| 0.7619 | 80 | 1.0699 | - | - |
| 0.8095 | 85 | 1.0138 | - | - |
| 0.8571 | 90 | 0.8823 | - | - |
| 0.9048 | 95 | 1.0543 | - | - |
| 0.9524 | 100 | 0.7650 | - | - |
| 1.0 | 105 | 0.7820 | 1.4432 | 0.2572 |
| 1.0476 | 110 | 0.5899 | - | - |
| 1.0952 | 115 | 0.6227 | - | - |
| 1.1429 | 120 | 0.5144 | - | - |
| 1.1905 | 125 | 0.4461 | - | - |
| 1.2381 | 130 | 0.4701 | - | - |
| 1.2857 | 135 | 0.6493 | - | - |
| 1.3333 | 140 | 0.4794 | - | - |
| 1.3810 | 145 | 0.3600 | - | - |
| 1.4286 | 150 | 0.4083 | - | - |
| 1.4762 | 155 | 0.5043 | - | - |
| 1.5238 | 160 | 0.3620 | - | - |
| 1.5714 | 165 | 0.4367 | - | - |
| 1.6190 | 170 | 0.4310 | - | - |
| 1.6667 | 175 | 0.3739 | - | - |
| 1.7143 | 180 | 0.3669 | - | - |
| 1.7619 | 185 | 0.3426 | - | - |
| 1.8095 | 190 | 0.2987 | - | - |
| 1.8571 | 195 | 0.3383 | - | - |
| 1.9048 | 200 | 0.3787 | - | - |
| 1.9524 | 205 | 0.2408 | - | - |
| 2.0 | 210 | 0.2127 | 1.3310 | 0.2925 |
| 2.0476 | 215 | 0.1532 | - | - |
| 2.0952 | 220 | 0.1506 | - | - |
| 2.1429 | 225 | 0.1267 | - | - |
| 2.1905 | 230 | 0.1699 | - | - |
| 2.2381 | 235 | 0.1332 | - | - |
| 2.2857 | 240 | 0.1465 | - | - |
| 2.3333 | 245 | 0.1446 | - | - |
| 2.3810 | 250 | 0.1261 | - | - |
| 2.4286 | 255 | 0.1868 | - | - |
| 2.4762 | 260 | 0.1551 | - | - |
| 2.5238 | 265 | 0.1544 | - | - |
| 2.5714 | 270 | 0.1259 | - | - |
| 2.6190 | 275 | 0.1002 | - | - |
| 2.6667 | 280 | 0.1304 | - | - |
| 2.7143 | 285 | 0.1621 | - | - |
| 2.7619 | 290 | 0.1412 | - | - |
| 2.8095 | 295 | 0.1489 | - | - |
| 2.8571 | 300 | 0.1332 | - | - |
| 2.9048 | 305 | 0.1274 | - | - |
| 2.9524 | 310 | 0.1140 | - | - |
| 3.0 | 315 | 0.1126 | 1.3502 | 0.2846 |
| 3.0476 | 320 | 0.0898 | - | - |
| 3.0952 | 325 | 0.1037 | - | - |
| 3.1429 | 330 | 0.0731 | - | - |
| 3.1905 | 335 | 0.1060 | - | - |
| 3.2381 | 340 | 0.0880 | - | - |
| 3.2857 | 345 | 0.0603 | - | - |
| 3.3333 | 350 | 0.0964 | - | - |
| 3.3810 | 355 | 0.0777 | - | - |
| 3.4286 | 360 | 0.0515 | - | - |
| 3.4762 | 365 | 0.0589 | - | - |
| 3.5238 | 370 | 0.0631 | - | - |
| 3.5714 | 375 | 0.0873 | - | - |
| 3.6190 | 380 | 0.0526 | - | - |
| 3.6667 | 385 | 0.0756 | - | - |
| 3.7143 | 390 | 0.0537 | - | - |
| 3.7619 | 395 | 0.0799 | - | - |
| 3.8095 | 400 | 0.0726 | - | - |
| 3.8571 | 405 | 0.0552 | - | - |
| 3.9048 | 410 | 0.0597 | - | - |
| 3.9524 | 415 | 0.1171 | - | - |
| 4.0 | 420 | 0.0505 | 1.3530 | 0.2987 |
| 4.0476 | 425 | 0.0321 | - | - |
| 4.0952 | 430 | 0.0314 | - | - |
| 4.1429 | 435 | 0.0528 | - | - |
| 4.1905 | 440 | 0.0443 | - | - |
| 4.2381 | 445 | 0.0265 | - | - |
| 4.2857 | 450 | 0.0533 | - | - |
| 4.3333 | 455 | 0.0403 | - | - |
| 4.3810 | 460 | 0.0892 | - | - |
| 4.4286 | 465 | 0.0397 | - | - |
| 4.4762 | 470 | 0.0517 | - | - |
| 4.5238 | 475 | 0.0429 | - | - |
| 4.5714 | 480 | 0.0465 | - | - |
| 4.6190 | 485 | 0.0667 | - | - |
| 4.6667 | 490 | 0.0763 | - | - |
| 4.7143 | 495 | 0.0237 | - | - |
| 4.7619 | 500 | 0.0581 | - | - |
| 4.8095 | 505 | 0.0582 | - | - |
| 4.8571 | 510 | 0.0461 | - | - |
| 4.9048 | 515 | 0.0400 | - | - |
| 4.9524 | 520 | 0.0223 | - | - |
| 5.0 | 525 | 0.0234 | 1.4690 | 0.2849 |
| 5.0476 | 530 | 0.0269 | - | - |
| 5.0952 | 535 | 0.0437 | - | - |
| 5.1429 | 540 | 0.0271 | - | - |
| 5.1905 | 545 | 0.0397 | - | - |
| 5.2381 | 550 | 0.0227 | - | - |
| 5.2857 | 555 | 0.0308 | - | - |
| 5.3333 | 560 | 0.0152 | - | - |
| 5.3810 | 565 | 0.0472 | - | - |
| 5.4286 | 570 | 0.0204 | - | - |
| 5.4762 | 575 | 0.0273 | - | - |
| 5.5238 | 580 | 0.0214 | - | - |
| 5.5714 | 585 | 0.0315 | - | - |
| 5.6190 | 590 | 0.0244 | - | - |
| 5.6667 | 595 | 0.0239 | - | - |
| 5.7143 | 600 | 0.0244 | - | - |
| 5.7619 | 605 | 0.0645 | - | - |
| 5.8095 | 610 | 0.0162 | - | - |
| 5.8571 | 615 | 0.0454 | - | - |
| 5.9048 | 620 | 0.0171 | - | - |
| 5.9524 | 625 | 0.0253 | - | - |
| 6.0 | 630 | 0.0256 | 1.5053 | 0.2979 |
| 6.0476 | 635 | 0.0270 | - | - |
| 6.0952 | 640 | 0.0233 | - | - |
| 6.1429 | 645 | 0.0118 | - | - |
| 6.1905 | 650 | 0.0220 | - | - |
| 6.2381 | 655 | 0.0158 | - | - |
| 6.2857 | 660 | 0.0237 | - | - |
| 6.3333 | 665 | 0.0142 | - | - |
| 6.3810 | 670 | 0.0482 | - | - |
| 6.4286 | 675 | 0.0311 | - | - |
| 6.4762 | 680 | 0.0552 | - | - |
| 6.5238 | 685 | 0.0291 | - | - |
| 6.5714 | 690 | 0.0118 | - | - |
| 6.6190 | 695 | 0.0121 | - | - |
| 6.6667 | 700 | 0.0233 | - | - |
| 6.7143 | 705 | 0.0119 | - | - |
| 6.7619 | 710 | 0.0193 | - | - |
| 6.8095 | 715 | 0.0175 | - | - |
| 6.8571 | 720 | 0.0189 | - | - |
| 6.9048 | 725 | 0.0125 | - | - |
| 6.9524 | 730 | 0.0191 | - | - |
| 7.0 | 735 | 0.0324 | 1.4642 | 0.3035 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}
Base model
bkai-foundation-models/vietnamese-bi-encoder