trongvox commited on
Commit
8bde5ff
·
verified ·
1 Parent(s): 9299862

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,444 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:37424
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: vinai/phobert-base
10
+ widget:
11
+ - source_sentence: 'Hoa sen duong nhu da qua quen thuoc voi nguoi Viet Nam, duoc menh
12
+ danh nhu loai quoc hoa mang huong thom diu thoang thoang, co ve dep tinh khiet.Ngoai
13
+ ra gan day cac nghien cuu con cho thay hoa sen khong nhung an duoc ma con mang
14
+ trong minh nhieu thanh phan dinh duong rat tot cho co the!
15
+
16
+
17
+ Hoa sen khong chi noi tieng boi ve dep thanh khiet ma con duoc biet den nhu mot
18
+ nguyen lieu cao cap che bien cac mon ngon. Tu nhung ngay xua, hoa sen da duoc
19
+ chon lam nguyen lieu tao nen nhieu mon an cung dinh tinh te. It ai biet duoc ben
20
+ canh viec dung de trang tri va lam tra, canh hoa sen con duoc nguoi ta chien gion
21
+ nhin la mat va hap dan. Hat sen nau che thanh mat va hay ket hop voi com, xoi
22
+ vi bui ngon mieng. Hoa sen khong chi de ngam ma con co the an, co the thuong thuc
23
+ bang vi giac.'
24
+ sentences:
25
+ - Bánh đa cá rô Văn Thắng
26
+ - Cá chép giòn hấp bia
27
+ - Xôi Gánh
28
+ - source_sentence: "Hai san Minh Trang Quan la dia chi am thuc chuyen hai san tuoi\
29
+ \ song, so huu mot thuc don mon an hap dan voi du chung loai: Tom hum, tom su,\
30
+ \ cua, ghe, muc, hau... ket hop cac cach che bien: hap, nuong, rang muoi, rang\
31
+ \ me, sot bo toi... kha quen thuoc nhung cung du lam cho thuc khach khong the\
32
+ \ kiem long. Do la Ghe rang me chua diu, Tom rang muoi dam da, la Tom hum sot\
33
+ \ bo toi thom lung, beo beo hay Hau nuong pho mai ngot thom, beo ngay...Khong\
34
+ \ qua cau ky, chu trong ve thiet ke, khong gian cua Hai san Minh Trang Quan de\
35
+ \ cao su thoai mai va de chiu danh cho thuc khach.Neu khong gian trong nha noi\
36
+ \ bat voi son tuong vang, voi ban ghe dang thap va mot vai chau cay xanh nho xinh\
37
+ \ thi khong gian ben ngoai lai dac trung boi su tu do, thoang mat. Hai san Minh\
38
+ \ Trang Quan rat thich hop voi nhung dip tu hop, lien hoan, gap go ban be, gia\
39
+ \ dinh, khach le va nhom khach du lich...Tai Hai san Minh Trang Quan, an ngon\
40
+ \ thoi chua du, mon an phai bo duong va tot cho suc khoe. De tao nen suc hut cua\
41
+ \ cac mon an \"hap thuy nhiet\", cac dau bep tai hoa da rat tinh te khi dau tu\
42
+ \ vao qua trinh so che va tam uop gia vi, dam bao moi mon la mot su ket hop day\
43
+ \ dac sac giua cac nguyen lieu di kem, giup thuc khach cam nhan duoc su dan quyen\
44
+ \ giua cac mui vi voi nhau, lam mon ngon them thang hoa.THONG TIN LIEN HE: Dia\
45
+ \ chi: Lo 8-12 Nguyen Luong Bang, Phuong Hien Nam, TP. Hung Yen, Tinh Hung Yen\
46
+ \ Dien thoai: 0379 661 686 Email: nguyenhuy230192@gmail.com Fanpage: https://www.facebook.com/haisanbinhdantuoisong/\
47
+ \ Gio mo cua: Mo cua ca ngay\n Chi duong Goi dien"
48
+ sentences:
49
+ - Chả Cá
50
+ - Hủ Tiếu Mì Du Ký - Lũy Bán Bích
51
+ - Hanuri
52
+ - source_sentence: 'Nhac den Doan Hung, vung dat gan voi chien thang song Lo lich
53
+ su trong cuoc khang chien chong thuc dan Phap, ai ai cung nho den giong buoi quy
54
+ da duoc trong, giu giong hang tram nam nay - buoi Doan Hung. O Doan Hung, buoi
55
+ cua xa Chi Dam va Bang Luan la ngon nhat. Chi mot lan nem mieng buoi voi tep buoi
56
+ trang, mem mong nuoc va ngot lim, thom ngay ngat khien ta tuong chung nhu vi buoi
57
+ nhu dang tan vao tan ruot gan, da thit.
58
+
59
+
60
+ Khi xua, nhac den Buoi la nhac den Buoi Doan Hung. Loai Buoi duy nhat duoc lua
61
+ chon de tien vua. Chi cac bac vua chua moi duoc thuong thuc giong Buoi dac biet
62
+ nay. Vao nhung ngay thu hai buoi, nguoi dan chon hai nhung qua buoi to nhat, vang
63
+ dep nhat de dang cung cac Vua Hung, dang cung tien to nhu mot su tri an cong duc
64
+ cua to tien.Ngay nay, nguoi tieu dung da co them nhieu lua chon chat luong khac
65
+ nhu: Buoi Nam Roi, Buoi Da Xanh, Buoi Dien... Nhung Buoi Doan Hung van chua bao
66
+ gio bi lang quen va tham chi co the noi la giong Buoi quy va kho mua nhat, kho
67
+ den tay nguoi dung nhat trong cac loai Buoi ngon.'
68
+ sentences:
69
+ - Bánh Giò Cô Béo
70
+ - Canh măng móng giò
71
+ - Trám ngâm xì dầu
72
+ - source_sentence: Canh cua thien ly khong chi giup ban ngu ngon ma con thanh nhiet
73
+ rat tot cho co the, la goi y tuong doi huu ich cho nhung mon an gi de ngu duoc
74
+ dua vao danh sach vang boi ti le dinh duong cao, cach che bien cung tuong doi
75
+ don gian, neu ban chon loai hoa thien ly con non se ngon hon rat nhieu. Cach lam
76
+ mon canh cua thien ly:Cua dong rua sach, go mai, yem de rieng, bo yem, rua sach,
77
+ de rao, cho vao coi, gia nhuyen voi vai hat muoi.Dung thia lay phan gach o mai
78
+ cua, cho vao bat voi 1/4 thia ca-phe hat nem. Trang qua nuoc cho het mui hoi.Cho
79
+ cua da gia vao to, hoa voi 1 lit nuoc, bop nhe de thit cua tan deu. Loc cua bang
80
+ ro luoi mat nho voi 600ml nuoc, sau do loc lai cho het can va xac cua.Bac noi
81
+ nuoc cua len bep, nem vua an, dun lua to va dung dua khuay theo chieu kim dong
82
+ ho den luc noi nong va nuoc cua chuyen sang mau duc thi thoi. Khi cua da noi kin
83
+ mat noi va canh soi thi ha lua that nho de chin cai cua,Hoa thien ly nhat bo phan
84
+ sau, giap, rua sach voi nuoc muoi, de rao.Cho canh soi thi cho hoa thien ly vao,
85
+ van lua to de canh soi lai. Cho cho gach cua da lam sach vao noi canh dang soi
86
+ de gach cua tan ra, tao thanh mot mau vang tren mat noi canh thi tat bep.Nem bot
87
+ gia vi, hat nem sao cho vua an.Cho canh ra to va chuan bi an.
88
+ sentences:
89
+ - Canh cua thiên lý
90
+ - H2 Tea
91
+ - Miến xào tôm sốt trứng muối
92
+ - source_sentence: "Ốc vú nàng khá quý hiếm, là một trong những món ăn đặc sản ngon\
93
+ \ nổi tiếng nhất tại Côn Đảo. Ốc vú nàng có vỏ hình chóp lệch, trên đỉnh có một\
94
+ \ núm nhỏ, vỏ ngoài màu xám đen, mặt trong lấp lánh ánh xà cừ, dùng cát xát vào\
95
+ \ vỏ thì con ốc sẽ ánh lên một màu hồng sáng, càng lớn thì vỏ ốc có màu hồng càng\
96
+ \ đậm. \n\nThông thường, ốc vú nàng chỉ to bằng khoảng ba ngón tay người lớn,\
97
+ \ nhưng ốc vú nàng ở Côn Đảo có thể to gần bằng bàn tay. Ốc vú nàng có vô vàn\
98
+ \ cách chế biến và cách thưởng thức khác nhau như luộc, làm gỏi, hấp... nhưng\
99
+ \ được ưa thích nhất là nướng. Dù chế biến theo cách nào thì cũng đều mang một\
100
+ \ hương vị thơm ngon riêng biệt không lẫn với bất kỳ loại ốc nào. Loại ốc vú nàng\
101
+ \ này được ngư dân Côn Đảo khai thác chủ yếu tại khu vực Hòn Tài, Hòn Trác và\
102
+ \ luôn giữ được độ tươi khi đưa vào chế biến."
103
+ sentences:
104
+ - Ốc vú nàng
105
+ - Bánh tằm bì - Bánh Ướt Cây Me
106
+ - Trứng chiên thịt băm
107
+ pipeline_tag: sentence-similarity
108
+ library_name: sentence-transformers
109
+ ---
110
+
111
+ # SentenceTransformer based on vinai/phobert-base
112
+
113
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [vinai/phobert-base](https://huggingface.co/vinai/phobert-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
114
+
115
+ ## Model Details
116
+
117
+ ### Model Description
118
+ - **Model Type:** Sentence Transformer
119
+ - **Base model:** [vinai/phobert-base](https://huggingface.co/vinai/phobert-base) <!-- at revision c1e37c5c86f918761049cef6fa216b4779d0d01d -->
120
+ - **Maximum Sequence Length:** 128 tokens
121
+ - **Output Dimensionality:** 768 dimensions
122
+ - **Similarity Function:** Cosine Similarity
123
+ <!-- - **Training Dataset:** Unknown -->
124
+ <!-- - **Language:** Unknown -->
125
+ <!-- - **License:** Unknown -->
126
+
127
+ ### Model Sources
128
+
129
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
130
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
131
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
132
+
133
+ ### Full Model Architecture
134
+
135
+ ```
136
+ SentenceTransformer(
137
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel
138
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
139
+ )
140
+ ```
141
+
142
+ ## Usage
143
+
144
+ ### Direct Usage (Sentence Transformers)
145
+
146
+ First install the Sentence Transformers library:
147
+
148
+ ```bash
149
+ pip install -U sentence-transformers
150
+ ```
151
+
152
+ Then you can load this model and run inference.
153
+ ```python
154
+ from sentence_transformers import SentenceTransformer
155
+
156
+ # Download from the 🤗 Hub
157
+ model = SentenceTransformer("trongvox/phobert-semactic-retrival-food-2")
158
+ # Run inference
159
+ sentences = [
160
+ 'Ốc vú nàng khá quý hiếm, là một trong những món ăn đặc sản ngon nổi tiếng nhất tại Côn Đảo. Ốc vú nàng có vỏ hình chóp lệch, trên đỉnh có một núm nhỏ, vỏ ngoài màu xám đen, mặt trong lấp lánh ánh xà cừ, dùng cát xát vào vỏ thì con ốc sẽ ánh lên một màu hồng sáng, càng lớn thì vỏ ốc có màu hồng càng đậm. \n\nThông thường, ốc vú nàng chỉ to bằng khoảng ba ngón tay người lớn, nhưng ốc vú nàng ở Côn Đảo có thể to gần bằng bàn tay. Ốc vú nàng có vô vàn cách chế biến và cách thưởng thức khác nhau như luộc, làm gỏi, hấp... nhưng được ưa thích nhất là nướng. Dù chế biến theo cách nào thì cũng đều mang một hương vị thơm ngon riêng biệt không lẫn với bất kỳ loại ốc nào. Loại ốc vú nàng này được ngư dân Côn Đảo khai thác chủ yếu tại khu vực Hòn Tài, Hòn Trác và luôn giữ được độ tươi khi đưa vào chế biến.',
161
+ 'Ốc vú nàng',
162
+ 'Trứng chiên thịt b��m',
163
+ ]
164
+ embeddings = model.encode(sentences)
165
+ print(embeddings.shape)
166
+ # [3, 768]
167
+
168
+ # Get the similarity scores for the embeddings
169
+ similarities = model.similarity(embeddings, embeddings)
170
+ print(similarities.shape)
171
+ # [3, 3]
172
+ ```
173
+
174
+ <!--
175
+ ### Direct Usage (Transformers)
176
+
177
+ <details><summary>Click to see the direct usage in Transformers</summary>
178
+
179
+ </details>
180
+ -->
181
+
182
+ <!--
183
+ ### Downstream Usage (Sentence Transformers)
184
+
185
+ You can finetune this model on your own dataset.
186
+
187
+ <details><summary>Click to expand</summary>
188
+
189
+ </details>
190
+ -->
191
+
192
+ <!--
193
+ ### Out-of-Scope Use
194
+
195
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
196
+ -->
197
+
198
+ <!--
199
+ ## Bias, Risks and Limitations
200
+
201
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
202
+ -->
203
+
204
+ <!--
205
+ ### Recommendations
206
+
207
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
208
+ -->
209
+
210
+ ## Training Details
211
+
212
+ ### Training Dataset
213
+
214
+ #### Unnamed Dataset
215
+
216
+
217
+ * Size: 37,424 training samples
218
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
219
+ * Approximate statistics based on the first 1000 samples:
220
+ | | sentence_0 | sentence_1 | label |
221
+ |:--------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:--------------------------------------------------------------|
222
+ | type | string | string | float |
223
+ | details | <ul><li>min: 71 tokens</li><li>mean: 127.52 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 7.36 tokens</li><li>max: 21 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.5</li><li>max: 1.0</li></ul> |
224
+ * Samples:
225
+ | sentence_0 | sentence_1 | label |
226
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|:-----------------|
227
+ | <code>Vua ngon, vua re, vua bo la 3 the manh cua mon an nay trong bua com sinh vien. Phan da, mon an nay mot tuan xuat hien tu 5 den 7 lan mot tuan trong mam com cua sinh vien vi no don gian, de nau va cung kha day du dinh duong. Do nuoc sot ca chua len dau hu vua ran rac hanh la va tieu len la an vo cung bat com. Day la mon vua ngon, vua re an cung com nong. Rieng mon an ve dau, ban co the tha ho sang tao va che bien. Dau hu mang rat nhieu chat dinh duong, va dac biet la dam khi che bien cung ca chua se rat phu hop. Mon an nay tuy re nhung cung rat bo do. <br><br>Nguyen lieu:<br>Dau hu Ca chua Toi, hanh la <br>Cach thuc hien:<br>Cho dau an vao chao, dun den khi dau gia thi cho dau vao ran deu cac mat.Phi thom toi roi cho ca chua cung voi chut nuoc soi vao.Xao ca chua den khi mem thi cho dau hu da ran vao.Them nem gia vi sao cho vua mieng roi dun den khi thay nuoc ca chua sen set thi cho chem chut hanh la vao roi tat bep.</code> | <code>Đậu hũ sốt cà chua</code> | <code>1.0</code> |
228
+ | <code>Du troi nang hay mua, mua dong gia ret hay mua he nong nuc thi mon kem van la mon an "khong the cuong lai duoc" va nhat la loai kem socola. Cach lam kem socola cung kha don gian va ban co the tu lam tai nha.Nguyen lieu:Whipping cream: 400 gSua dac: 140 gBot ca cao nguyen chat: 60 gHop dung, pho danh trung hoac may danh trungCach lam:Dau tien cho 400g whipping da duoc lam lanh ra to lon. Dung phoi hoac may danh trung danh den khi whipping chuyen trang thai bong mem. Nhat phoi len tao chop hoi quap xuong.Cho 140g sua dac va 60g bot ca cao nguyen chat vao whipping. Dung phoi long tron deu hon hop len. Luu y dung tron qua lau se khien hon hop bi tach nuoc. Khi hon hop deu, kha dac va sanh min thi dat.Sau khi tron deu hon hop, ban cho hon hop vao khuon, khay hay to, roi dung phoi dan cho deu hon hop. Sau do, dung mang boc thuc pham boc kin be mat lop kem lai roi cho vao ngan da tu lanh khoang 4 tieng dong ho.Sau 4 tieng lay kem ra va thuong thuc. De tang them mui vi, ban co the an kem kem v...</code> | <code>Kem socola</code> | <code>1.0</code> |
229
+ | <code>Nguyen lieu:<br>500 gr suon non3 nhanh hanh la thai khuc dai5 tep toi1 muong canh ruou3 muong canh nuoc tuong = xi dau1 muong canh duong1/2 muong ca phe tieu den1 muong canh nuoc mam1 trai ot sung700 ml nuoc xuong ga hay nuoc lanh.<br>Cach che bien:<br>Dau tien khi suon non mua ve cac ban lay suon chat mieng vua an, sau do rua suon qua nuoc co pha muoi roi xa nuoc lanh that sach.Sau do cac ban bat chao len bep, cho vao 2 muong canh dau, cho dau hoi nong cho hanh la vao xao 1 phut, ke den cho toi vao xao them 1 phut nua. Tiep theo cho suon vao vao cho that san roi moi cho nuoc tuong vao xao 4 phut phut nua. Cuoi cung cho nuoc + ruou va tat ca cac gia vi con lai vao, day nap ham voi lua vua. Khi nuoc hoi sanh lai thi nem nem lai cho vua an la tat bep.Thanh pham va trinh bay: Cho suon kho tau ra dia, trai ot de len hay mot chut la mui ta (ngo) va rac chut hat tieu len tren cho hap dan va day vi nhe.</code> | <code>Sườn kho tàu</code> | <code>1.0</code> |
230
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
231
+ ```json
232
+ {
233
+ "scale": 20.0,
234
+ "similarity_fct": "cos_sim"
235
+ }
236
+ ```
237
+
238
+ ### Training Hyperparameters
239
+ #### Non-Default Hyperparameters
240
+
241
+ - `per_device_train_batch_size`: 16
242
+ - `per_device_eval_batch_size`: 16
243
+ - `num_train_epochs`: 4
244
+ - `multi_dataset_batch_sampler`: round_robin
245
+
246
+ #### All Hyperparameters
247
+ <details><summary>Click to expand</summary>
248
+
249
+ - `overwrite_output_dir`: False
250
+ - `do_predict`: False
251
+ - `eval_strategy`: no
252
+ - `prediction_loss_only`: True
253
+ - `per_device_train_batch_size`: 16
254
+ - `per_device_eval_batch_size`: 16
255
+ - `per_gpu_train_batch_size`: None
256
+ - `per_gpu_eval_batch_size`: None
257
+ - `gradient_accumulation_steps`: 1
258
+ - `eval_accumulation_steps`: None
259
+ - `torch_empty_cache_steps`: None
260
+ - `learning_rate`: 5e-05
261
+ - `weight_decay`: 0.0
262
+ - `adam_beta1`: 0.9
263
+ - `adam_beta2`: 0.999
264
+ - `adam_epsilon`: 1e-08
265
+ - `max_grad_norm`: 1
266
+ - `num_train_epochs`: 4
267
+ - `max_steps`: -1
268
+ - `lr_scheduler_type`: linear
269
+ - `lr_scheduler_kwargs`: {}
270
+ - `warmup_ratio`: 0.0
271
+ - `warmup_steps`: 0
272
+ - `log_level`: passive
273
+ - `log_level_replica`: warning
274
+ - `log_on_each_node`: True
275
+ - `logging_nan_inf_filter`: True
276
+ - `save_safetensors`: True
277
+ - `save_on_each_node`: False
278
+ - `save_only_model`: False
279
+ - `restore_callback_states_from_checkpoint`: False
280
+ - `no_cuda`: False
281
+ - `use_cpu`: False
282
+ - `use_mps_device`: False
283
+ - `seed`: 42
284
+ - `data_seed`: None
285
+ - `jit_mode_eval`: False
286
+ - `use_ipex`: False
287
+ - `bf16`: False
288
+ - `fp16`: False
289
+ - `fp16_opt_level`: O1
290
+ - `half_precision_backend`: auto
291
+ - `bf16_full_eval`: False
292
+ - `fp16_full_eval`: False
293
+ - `tf32`: None
294
+ - `local_rank`: 0
295
+ - `ddp_backend`: None
296
+ - `tpu_num_cores`: None
297
+ - `tpu_metrics_debug`: False
298
+ - `debug`: []
299
+ - `dataloader_drop_last`: False
300
+ - `dataloader_num_workers`: 0
301
+ - `dataloader_prefetch_factor`: None
302
+ - `past_index`: -1
303
+ - `disable_tqdm`: False
304
+ - `remove_unused_columns`: True
305
+ - `label_names`: None
306
+ - `load_best_model_at_end`: False
307
+ - `ignore_data_skip`: False
308
+ - `fsdp`: []
309
+ - `fsdp_min_num_params`: 0
310
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
311
+ - `fsdp_transformer_layer_cls_to_wrap`: None
312
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
313
+ - `deepspeed`: None
314
+ - `label_smoothing_factor`: 0.0
315
+ - `optim`: adamw_torch
316
+ - `optim_args`: None
317
+ - `adafactor`: False
318
+ - `group_by_length`: False
319
+ - `length_column_name`: length
320
+ - `ddp_find_unused_parameters`: None
321
+ - `ddp_bucket_cap_mb`: None
322
+ - `ddp_broadcast_buffers`: False
323
+ - `dataloader_pin_memory`: True
324
+ - `dataloader_persistent_workers`: False
325
+ - `skip_memory_metrics`: True
326
+ - `use_legacy_prediction_loop`: False
327
+ - `push_to_hub`: False
328
+ - `resume_from_checkpoint`: None
329
+ - `hub_model_id`: None
330
+ - `hub_strategy`: every_save
331
+ - `hub_private_repo`: None
332
+ - `hub_always_push`: False
333
+ - `gradient_checkpointing`: False
334
+ - `gradient_checkpointing_kwargs`: None
335
+ - `include_inputs_for_metrics`: False
336
+ - `include_for_metrics`: []
337
+ - `eval_do_concat_batches`: True
338
+ - `fp16_backend`: auto
339
+ - `push_to_hub_model_id`: None
340
+ - `push_to_hub_organization`: None
341
+ - `mp_parameters`:
342
+ - `auto_find_batch_size`: False
343
+ - `full_determinism`: False
344
+ - `torchdynamo`: None
345
+ - `ray_scope`: last
346
+ - `ddp_timeout`: 1800
347
+ - `torch_compile`: False
348
+ - `torch_compile_backend`: None
349
+ - `torch_compile_mode`: None
350
+ - `dispatch_batches`: None
351
+ - `split_batches`: None
352
+ - `include_tokens_per_second`: False
353
+ - `include_num_input_tokens_seen`: False
354
+ - `neftune_noise_alpha`: None
355
+ - `optim_target_modules`: None
356
+ - `batch_eval_metrics`: False
357
+ - `eval_on_start`: False
358
+ - `use_liger_kernel`: False
359
+ - `eval_use_gather_object`: False
360
+ - `average_tokens_across_devices`: False
361
+ - `prompts`: None
362
+ - `batch_sampler`: batch_sampler
363
+ - `multi_dataset_batch_sampler`: round_robin
364
+
365
+ </details>
366
+
367
+ ### Training Logs
368
+ | Epoch | Step | Training Loss |
369
+ |:------:|:----:|:-------------:|
370
+ | 0.2138 | 500 | 2.1363 |
371
+ | 0.4275 | 1000 | 1.9874 |
372
+ | 0.6413 | 1500 | 1.9273 |
373
+ | 0.8551 | 2000 | 1.9023 |
374
+ | 1.0688 | 2500 | 1.8001 |
375
+ | 1.2826 | 3000 | 1.6671 |
376
+ | 1.4964 | 3500 | 1.6611 |
377
+ | 1.7101 | 4000 | 1.6839 |
378
+ | 1.9239 | 4500 | 1.6716 |
379
+ | 2.1377 | 5000 | 1.5615 |
380
+ | 2.3514 | 5500 | 1.4695 |
381
+ | 2.5652 | 6000 | 1.4506 |
382
+ | 2.7790 | 6500 | 1.4754 |
383
+ | 2.9927 | 7000 | 1.4856 |
384
+ | 3.2065 | 7500 | 1.3189 |
385
+ | 3.4203 | 8000 | 1.3134 |
386
+ | 3.6340 | 8500 | 1.3328 |
387
+ | 3.8478 | 9000 | 1.3009 |
388
+
389
+
390
+ ### Framework Versions
391
+ - Python: 3.10.12
392
+ - Sentence Transformers: 3.3.1
393
+ - Transformers: 4.47.1
394
+ - PyTorch: 2.5.1+cu121
395
+ - Accelerate: 1.2.1
396
+ - Datasets: 3.2.0
397
+ - Tokenizers: 0.21.0
398
+
399
+ ## Citation
400
+
401
+ ### BibTeX
402
+
403
+ #### Sentence Transformers
404
+ ```bibtex
405
+ @inproceedings{reimers-2019-sentence-bert,
406
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
407
+ author = "Reimers, Nils and Gurevych, Iryna",
408
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
409
+ month = "11",
410
+ year = "2019",
411
+ publisher = "Association for Computational Linguistics",
412
+ url = "https://arxiv.org/abs/1908.10084",
413
+ }
414
+ ```
415
+
416
+ #### MultipleNegativesRankingLoss
417
+ ```bibtex
418
+ @misc{henderson2017efficient,
419
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
420
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
421
+ year={2017},
422
+ eprint={1705.00652},
423
+ archivePrefix={arXiv},
424
+ primaryClass={cs.CL}
425
+ }
426
+ ```
427
+
428
+ <!--
429
+ ## Glossary
430
+
431
+ *Clearly define terms in order to be accessible across audiences.*
432
+ -->
433
+
434
+ <!--
435
+ ## Model Card Authors
436
+
437
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
438
+ -->
439
+
440
+ <!--
441
+ ## Model Card Contact
442
+
443
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
444
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "vinai/phobert-base",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 258,
18
+ "model_type": "roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "tokenizer_class": "PhobertTokenizer",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.47.1",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 64001
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.47.1",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:20c7a21731034720a1ff0f92dfdf32bfb0f38cf27a77d127fa288f0903da4196
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": "<mask>",
6
+ "pad_token": "<pad>",
7
+ "sep_token": "</s>",
8
+ "unk_token": "<unk>"
9
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 128,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff