LeoChiuu commited on
Commit
e21f71e
1 Parent(s): c2500bc

Add new SentenceTransformer model.

Browse files
README.md CHANGED
@@ -1,6 +1,42 @@
1
  ---
2
  base_model: colorfulscoop/sbert-base-ja
3
  library_name: sentence-transformers
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  pipeline_tag: sentence-similarity
5
  tags:
6
  - sentence-transformers
@@ -10,38 +46,141 @@ tags:
10
  - dataset_size:53
11
  - loss:CosineSimilarityLoss
12
  widget:
13
- - source_sentence: 遊歩道 沿って 並ぶ 自転車
14
  sentences:
15
- - 自転車遊歩道 近く ラック あり ます 。
16
- - ストリート ワーカー 保護 着用 して い ませ ん 。
17
- - 人々 は ハンバーガー 待って い ます 。
18
- - source_sentence: 白い 帽子 かぶった 女性 が 、 鮮やかな 色 風景 を 描いて い ます 。 岩 層 自体 が 背景 に
19
- 見え ます 。
20
  sentences:
21
- - 肖像 描いてます
22
- - 女性 男性 ニューヨーク ます 。
23
  - 木 を 切り 倒した 後 、 木 の 切り株 に 座って いる 少年 。
24
- - source_sentence: 若者 はしご 登って ます 。 若い 女性 は 葉 で 覆わ れた 木 の 中間 に いて 、 青い
25
- シャツ を 着た 友人 は 後ろ から 笑って い ます 。
26
  sentences:
27
- - 子供抱きかかえた
28
- - 子供 たち グループ 、 屋外 の スプリンクラー で タグ 再生 して い ます 。
29
- - ます 。
30
- - source_sentence: 黒い 長い 髪 を した 女性 が 、 黒い ベルト の 付いた 赤い ドレス を 着て 歩いて い ます 。
31
- sentences:
32
- - 自転車 の 挑戦 に 勝とう と する 人々 の グループ 。
33
- - 黄色 の 自転車 は レース で 他 の 自転車 を リード し ます 。
34
- - 女性 は 髪 を 切った 。
35
- - source_sentence: 野球 の 試合 中 に 基地 を 走る 野球 選手 の シャープリー 。
36
- sentences:
37
- - すべて コート を 着た 子供 たち が 気球 に 飛び 込んで い ます 。
38
- - 子供 たち は ジャングルジム で 滑り ます 。
39
- - Sharp ley は ゲーム で プレイ して い ます 。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
40
  ---
41
 
42
  # SentenceTransformer based on colorfulscoop/sbert-base-ja
43
 
44
- This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [colorfulscoop/sbert-base-ja](https://huggingface.co/colorfulscoop/sbert-base-ja). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
45
 
46
  ## Model Details
47
 
@@ -51,7 +190,8 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [c
51
  - **Maximum Sequence Length:** 512 tokens
52
  - **Output Dimensionality:** 768 tokens
53
  - **Similarity Function:** Cosine Similarity
54
- <!-- - **Training Dataset:** Unknown -->
 
55
  <!-- - **Language:** Unknown -->
56
  <!-- - **License:** Unknown -->
57
 
@@ -88,9 +228,9 @@ from sentence_transformers import SentenceTransformer
88
  model = SentenceTransformer("sentence_transformers_model_id")
89
  # Run inference
90
  sentences = [
91
- '野球試合 に 基地 走る 野球 選手 の シャープリー 。',
92
- 'Sharp ley ゲーム プレイ して い ます 。',
93
- 'すべて コート着た 子供 たち が 気球 に 飛び 込んで い ます 。',
94
  ]
95
  embeddings = model.encode(sentences)
96
  print(embeddings.shape)
@@ -126,6 +266,52 @@ You can finetune this model on your own dataset.
126
  *List how the model may foreseeably be misused and address what users ought not to do with the model.*
127
  -->
128
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
129
  <!--
130
  ## Bias, Risks and Limitations
131
 
@@ -142,22 +328,47 @@ You can finetune this model on your own dataset.
142
 
143
  ### Training Dataset
144
 
145
- #### Unnamed Dataset
146
-
147
 
 
148
  * Size: 53 training samples
149
- * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
150
  * Approximate statistics based on the first 53 samples:
151
- | | sentence_0 | sentence_1 | label |
152
  |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------|
153
  | type | string | string | int |
154
- | details | <ul><li>min: 14 tokens</li><li>mean: 36.25 tokens</li><li>max: 84 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 22.15 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>0: ~35.85%</li><li>1: ~64.15%</li></ul> |
155
  * Samples:
156
- | sentence_0 | sentence_1 | label |
157
- |:-------------------------------------------------------------|:----------------------------------------------|:---------------|
158
- | <code>眼鏡 かけて いる 写真ポーズとり ます 。</code> | <code>人々 眼鏡かけて ます</code> | <code>0</code> |
159
- | <code>障害 ある バイカー を 使って 黄色 スポーツ バイク を 動かし ます 。</code> | <code>バイカー 使って 自転車 さらに 進め ます 。</code> | <code>1</code> |
160
- | <code>赤い ショート パンツ 着た 子供 ます 。</code> | <code>子供 リバービッジ 座って い ます 。</code> | <code>1</code> |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
161
  * Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
162
  ```json
163
  {
@@ -168,36 +379,38 @@ You can finetune this model on your own dataset.
168
  ### Training Hyperparameters
169
  #### Non-Default Hyperparameters
170
 
171
- - `per_device_train_batch_size`: 16
172
- - `per_device_eval_batch_size`: 16
173
- - `num_train_epochs`: 15
174
- - `multi_dataset_batch_sampler`: round_robin
 
 
175
 
176
  #### All Hyperparameters
177
  <details><summary>Click to expand</summary>
178
 
179
  - `overwrite_output_dir`: False
180
  - `do_predict`: False
181
- - `eval_strategy`: no
182
  - `prediction_loss_only`: True
183
- - `per_device_train_batch_size`: 16
184
- - `per_device_eval_batch_size`: 16
185
  - `per_gpu_train_batch_size`: None
186
  - `per_gpu_eval_batch_size`: None
187
  - `gradient_accumulation_steps`: 1
188
  - `eval_accumulation_steps`: None
189
  - `torch_empty_cache_steps`: None
190
- - `learning_rate`: 5e-05
191
  - `weight_decay`: 0.0
192
  - `adam_beta1`: 0.9
193
  - `adam_beta2`: 0.999
194
  - `adam_epsilon`: 1e-08
195
- - `max_grad_norm`: 1
196
- - `num_train_epochs`: 15
197
  - `max_steps`: -1
198
  - `lr_scheduler_type`: linear
199
  - `lr_scheduler_kwargs`: {}
200
- - `warmup_ratio`: 0.0
201
  - `warmup_steps`: 0
202
  - `log_level`: passive
203
  - `log_level_replica`: warning
@@ -215,7 +428,7 @@ You can finetune this model on your own dataset.
215
  - `jit_mode_eval`: False
216
  - `use_ipex`: False
217
  - `bf16`: False
218
- - `fp16`: False
219
  - `fp16_opt_level`: O1
220
  - `half_precision_backend`: auto
221
  - `bf16_full_eval`: False
@@ -285,11 +498,26 @@ You can finetune this model on your own dataset.
285
  - `batch_eval_metrics`: False
286
  - `eval_on_start`: False
287
  - `eval_use_gather_object`: False
288
- - `batch_sampler`: batch_sampler
289
- - `multi_dataset_batch_sampler`: round_robin
290
 
291
  </details>
292
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
293
  ### Framework Versions
294
  - Python: 3.10.14
295
  - Sentence Transformers: 3.1.0
 
1
  ---
2
  base_model: colorfulscoop/sbert-base-ja
3
  library_name: sentence-transformers
4
+ metrics:
5
+ - cosine_accuracy
6
+ - cosine_accuracy_threshold
7
+ - cosine_f1
8
+ - cosine_f1_threshold
9
+ - cosine_precision
10
+ - cosine_recall
11
+ - cosine_ap
12
+ - dot_accuracy
13
+ - dot_accuracy_threshold
14
+ - dot_f1
15
+ - dot_f1_threshold
16
+ - dot_precision
17
+ - dot_recall
18
+ - dot_ap
19
+ - manhattan_accuracy
20
+ - manhattan_accuracy_threshold
21
+ - manhattan_f1
22
+ - manhattan_f1_threshold
23
+ - manhattan_precision
24
+ - manhattan_recall
25
+ - manhattan_ap
26
+ - euclidean_accuracy
27
+ - euclidean_accuracy_threshold
28
+ - euclidean_f1
29
+ - euclidean_f1_threshold
30
+ - euclidean_precision
31
+ - euclidean_recall
32
+ - euclidean_ap
33
+ - max_accuracy
34
+ - max_accuracy_threshold
35
+ - max_f1
36
+ - max_f1_threshold
37
+ - max_precision
38
+ - max_recall
39
+ - max_ap
40
  pipeline_tag: sentence-similarity
41
  tags:
42
  - sentence-transformers
 
46
  - dataset_size:53
47
  - loss:CosineSimilarityLoss
48
  widget:
49
+ - source_sentence: 黒い タイル 本当に すてきな カウンター の 前 と 後ろ で 働く 人々
50
  sentences:
51
+ - 男性バレエ 参加 して ます 。
52
+ - 座って いる
53
+ - 人々 は 宝石 働いて い ます 。
54
+ - source_sentence: 少年 切り株 座って い ます 。
 
55
  sentences:
56
+ - ストリート ワーカー 保護 着用 して ませ
57
+ - 芝生 エリア 犬 が 交流 し ます 。
58
  - 木 を 切り 倒した 後 、 木 の 切り株 に 座って いる 少年 。
59
+ - source_sentence: 多い 景色見て
 
60
  sentences:
61
+ - 見て いる 二 人 が い ます 。
62
+ - 肖像 描いて い ます 。
63
+ - バイカー 使って 自転車 を さらに 進め ます 。
64
+ model-index:
65
+ - name: SentenceTransformer based on colorfulscoop/sbert-base-ja
66
+ results:
67
+ - task:
68
+ type: binary-classification
69
+ name: Binary Classification
70
+ dataset:
71
+ name: custom arc semantics data jp
72
+ type: custom-arc-semantics-data-jp
73
+ metrics:
74
+ - type: cosine_accuracy
75
+ value: 0.6363636363636364
76
+ name: Cosine Accuracy
77
+ - type: cosine_accuracy_threshold
78
+ value: 0.32276761531829834
79
+ name: Cosine Accuracy Threshold
80
+ - type: cosine_f1
81
+ value: 0.7777777777777777
82
+ name: Cosine F1
83
+ - type: cosine_f1_threshold
84
+ value: 0.32276761531829834
85
+ name: Cosine F1 Threshold
86
+ - type: cosine_precision
87
+ value: 0.7
88
+ name: Cosine Precision
89
+ - type: cosine_recall
90
+ value: 0.875
91
+ name: Cosine Recall
92
+ - type: cosine_ap
93
+ value: 0.619629329004329
94
+ name: Cosine Ap
95
+ - type: dot_accuracy
96
+ value: 0.6363636363636364
97
+ name: Dot Accuracy
98
+ - type: dot_accuracy_threshold
99
+ value: 180.3168487548828
100
+ name: Dot Accuracy Threshold
101
+ - type: dot_f1
102
+ value: 0.7777777777777777
103
+ name: Dot F1
104
+ - type: dot_f1_threshold
105
+ value: 180.3168487548828
106
+ name: Dot F1 Threshold
107
+ - type: dot_precision
108
+ value: 0.7
109
+ name: Dot Precision
110
+ - type: dot_recall
111
+ value: 0.875
112
+ name: Dot Recall
113
+ - type: dot_ap
114
+ value: 0.650879329004329
115
+ name: Dot Ap
116
+ - type: manhattan_accuracy
117
+ value: 0.6363636363636364
118
+ name: Manhattan Accuracy
119
+ - type: manhattan_accuracy_threshold
120
+ value: 609.3980712890625
121
+ name: Manhattan Accuracy Threshold
122
+ - type: manhattan_f1
123
+ value: 0.7777777777777777
124
+ name: Manhattan F1
125
+ - type: manhattan_f1_threshold
126
+ value: 609.3980712890625
127
+ name: Manhattan F1 Threshold
128
+ - type: manhattan_precision
129
+ value: 0.7
130
+ name: Manhattan Precision
131
+ - type: manhattan_recall
132
+ value: 0.875
133
+ name: Manhattan Recall
134
+ - type: manhattan_ap
135
+ value: 0.619629329004329
136
+ name: Manhattan Ap
137
+ - type: euclidean_accuracy
138
+ value: 0.6363636363636364
139
+ name: Euclidean Accuracy
140
+ - type: euclidean_accuracy_threshold
141
+ value: 27.520790100097656
142
+ name: Euclidean Accuracy Threshold
143
+ - type: euclidean_f1
144
+ value: 0.7777777777777777
145
+ name: Euclidean F1
146
+ - type: euclidean_f1_threshold
147
+ value: 27.520790100097656
148
+ name: Euclidean F1 Threshold
149
+ - type: euclidean_precision
150
+ value: 0.7
151
+ name: Euclidean Precision
152
+ - type: euclidean_recall
153
+ value: 0.875
154
+ name: Euclidean Recall
155
+ - type: euclidean_ap
156
+ value: 0.619629329004329
157
+ name: Euclidean Ap
158
+ - type: max_accuracy
159
+ value: 0.6363636363636364
160
+ name: Max Accuracy
161
+ - type: max_accuracy_threshold
162
+ value: 609.3980712890625
163
+ name: Max Accuracy Threshold
164
+ - type: max_f1
165
+ value: 0.7777777777777777
166
+ name: Max F1
167
+ - type: max_f1_threshold
168
+ value: 609.3980712890625
169
+ name: Max F1 Threshold
170
+ - type: max_precision
171
+ value: 0.7
172
+ name: Max Precision
173
+ - type: max_recall
174
+ value: 0.875
175
+ name: Max Recall
176
+ - type: max_ap
177
+ value: 0.650879329004329
178
+ name: Max Ap
179
  ---
180
 
181
  # SentenceTransformer based on colorfulscoop/sbert-base-ja
182
 
183
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [colorfulscoop/sbert-base-ja](https://huggingface.co/colorfulscoop/sbert-base-ja) on the csv dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
184
 
185
  ## Model Details
186
 
 
190
  - **Maximum Sequence Length:** 512 tokens
191
  - **Output Dimensionality:** 768 tokens
192
  - **Similarity Function:** Cosine Similarity
193
+ - **Training Dataset:**
194
+ - csv
195
  <!-- - **Language:** Unknown -->
196
  <!-- - **License:** Unknown -->
197
 
 
228
  model = SentenceTransformer("sentence_transformers_model_id")
229
  # Run inference
230
  sentences = [
231
+ '多い 景色見て ',
232
+ ' 見て いる い ます 。',
233
+ ' 肖像 描いて い ます 。',
234
  ]
235
  embeddings = model.encode(sentences)
236
  print(embeddings.shape)
 
266
  *List how the model may foreseeably be misused and address what users ought not to do with the model.*
267
  -->
268
 
269
+ ## Evaluation
270
+
271
+ ### Metrics
272
+
273
+ #### Binary Classification
274
+ * Dataset: `custom-arc-semantics-data-jp`
275
+ * Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
276
+
277
+ | Metric | Value |
278
+ |:-----------------------------|:-----------|
279
+ | cosine_accuracy | 0.6364 |
280
+ | cosine_accuracy_threshold | 0.3228 |
281
+ | cosine_f1 | 0.7778 |
282
+ | cosine_f1_threshold | 0.3228 |
283
+ | cosine_precision | 0.7 |
284
+ | cosine_recall | 0.875 |
285
+ | cosine_ap | 0.6196 |
286
+ | dot_accuracy | 0.6364 |
287
+ | dot_accuracy_threshold | 180.3168 |
288
+ | dot_f1 | 0.7778 |
289
+ | dot_f1_threshold | 180.3168 |
290
+ | dot_precision | 0.7 |
291
+ | dot_recall | 0.875 |
292
+ | dot_ap | 0.6509 |
293
+ | manhattan_accuracy | 0.6364 |
294
+ | manhattan_accuracy_threshold | 609.3981 |
295
+ | manhattan_f1 | 0.7778 |
296
+ | manhattan_f1_threshold | 609.3981 |
297
+ | manhattan_precision | 0.7 |
298
+ | manhattan_recall | 0.875 |
299
+ | manhattan_ap | 0.6196 |
300
+ | euclidean_accuracy | 0.6364 |
301
+ | euclidean_accuracy_threshold | 27.5208 |
302
+ | euclidean_f1 | 0.7778 |
303
+ | euclidean_f1_threshold | 27.5208 |
304
+ | euclidean_precision | 0.7 |
305
+ | euclidean_recall | 0.875 |
306
+ | euclidean_ap | 0.6196 |
307
+ | max_accuracy | 0.6364 |
308
+ | max_accuracy_threshold | 609.3981 |
309
+ | max_f1 | 0.7778 |
310
+ | max_f1_threshold | 609.3981 |
311
+ | max_precision | 0.7 |
312
+ | max_recall | 0.875 |
313
+ | **max_ap** | **0.6509** |
314
+
315
  <!--
316
  ## Bias, Risks and Limitations
317
 
 
328
 
329
  ### Training Dataset
330
 
331
+ #### csv
 
332
 
333
+ * Dataset: csv
334
  * Size: 53 training samples
335
+ * Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
336
  * Approximate statistics based on the first 53 samples:
337
+ | | text1 | text2 | label |
338
  |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------|
339
  | type | string | string | int |
340
+ | details | <ul><li>min: 14 tokens</li><li>mean: 35.36 tokens</li><li>max: 79 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 21.33 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>0: ~38.10%</li><li>1: ~61.90%</li></ul> |
341
  * Samples:
342
+ | text1 | text2 | label |
343
+ |:---------------------------------------------------------------------------------------|:----------------------------------------------------------|:---------------|
344
+ | <code>薄紫 ドレス 明るい ホット ピンク着た 女性 が 、 水 と コーヒー を 飲んで テーブル に 座って い ます 。</code> | <code>ブラインド デート 女性 が 座って 、 デート が 現れる の 待ち ます 。</code> | <code>1</code> |
345
+ | <code>トラック 自転車 走る 人々グループ 。</code> | <code>自転車 挑戦 勝とう する 人々 グループ 。</code> | <code>1</code> |
346
+ | <code>野球 試合 基地 走る 野球 選手 シャープリー 。</code> | <code>Sharp ley ゲーム プレイ して い ます 。</code> | <code>0</code> |
347
+ * Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
348
+ ```json
349
+ {
350
+ "loss_fct": "torch.nn.modules.loss.MSELoss"
351
+ }
352
+ ```
353
+
354
+ ### Evaluation Dataset
355
+
356
+ #### csv
357
+
358
+ * Dataset: csv
359
+ * Size: 53 evaluation samples
360
+ * Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
361
+ * Approximate statistics based on the first 53 samples:
362
+ | | text1 | text2 | label |
363
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------|
364
+ | type | string | string | int |
365
+ | details | <ul><li>min: 19 tokens</li><li>mean: 39.64 tokens</li><li>max: 84 tokens</li></ul> | <ul><li>min: 19 tokens</li><li>mean: 25.27 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>0: ~27.27%</li><li>1: ~72.73%</li></ul> |
366
+ * Samples:
367
+ | text1 | text2 | label |
368
+ |:----------------------------------------------------------------------------------------------------------|:------------------------------------------------|:---------------|
369
+ | <code>岩 の 多い 景色 を 見て 二 人</code> | <code>何 か を 見て いる 二 人 が い ます 。</code> | <code>0</code> |
370
+ | <code>白い ヘルメット と オレンジ色 の シャツ 、 ジーンズ 、 白い トラック と オレンジ色 の パイロン の 前 に 反射 ジャケット を 着た 金髪 の ストリート ワーカー 。</code> | <code>ストリート ワーカー は 保護 具 を 着用 して い ませ ん 。</code> | <code>1</code> |
371
+ | <code>白い 帽子 を かぶった 女性 が 、 鮮やかな 色 の 岩 の 風景 を 描いて い ます 。 岩 層 自体 が 背景 に 見え ます 。</code> | <code>誰 か が 肖像 画 を 描いて い ます 。</code> | <code>1</code> |
372
  * Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
373
  ```json
374
  {
 
379
  ### Training Hyperparameters
380
  #### Non-Default Hyperparameters
381
 
382
+ - `eval_strategy`: epoch
383
+ - `learning_rate`: 2e-05
384
+ - `num_train_epochs`: 10
385
+ - `warmup_ratio`: 0.4
386
+ - `fp16`: True
387
+ - `batch_sampler`: no_duplicates
388
 
389
  #### All Hyperparameters
390
  <details><summary>Click to expand</summary>
391
 
392
  - `overwrite_output_dir`: False
393
  - `do_predict`: False
394
+ - `eval_strategy`: epoch
395
  - `prediction_loss_only`: True
396
+ - `per_device_train_batch_size`: 8
397
+ - `per_device_eval_batch_size`: 8
398
  - `per_gpu_train_batch_size`: None
399
  - `per_gpu_eval_batch_size`: None
400
  - `gradient_accumulation_steps`: 1
401
  - `eval_accumulation_steps`: None
402
  - `torch_empty_cache_steps`: None
403
+ - `learning_rate`: 2e-05
404
  - `weight_decay`: 0.0
405
  - `adam_beta1`: 0.9
406
  - `adam_beta2`: 0.999
407
  - `adam_epsilon`: 1e-08
408
+ - `max_grad_norm`: 1.0
409
+ - `num_train_epochs`: 10
410
  - `max_steps`: -1
411
  - `lr_scheduler_type`: linear
412
  - `lr_scheduler_kwargs`: {}
413
+ - `warmup_ratio`: 0.4
414
  - `warmup_steps`: 0
415
  - `log_level`: passive
416
  - `log_level_replica`: warning
 
428
  - `jit_mode_eval`: False
429
  - `use_ipex`: False
430
  - `bf16`: False
431
+ - `fp16`: True
432
  - `fp16_opt_level`: O1
433
  - `half_precision_backend`: auto
434
  - `bf16_full_eval`: False
 
498
  - `batch_eval_metrics`: False
499
  - `eval_on_start`: False
500
  - `eval_use_gather_object`: False
501
+ - `batch_sampler`: no_duplicates
502
+ - `multi_dataset_batch_sampler`: proportional
503
 
504
  </details>
505
 
506
+ ### Training Logs
507
+ | Epoch | Step | Training Loss | loss | custom-arc-semantics-data-jp_max_ap |
508
+ |:-----:|:----:|:-------------:|:------:|:-----------------------------------:|
509
+ | 1.0 | 6 | 0.2964 | 0.3110 | 0.7238 |
510
+ | 2.0 | 12 | 0.2768 | 0.3083 | 0.7238 |
511
+ | 3.0 | 18 | 0.2389 | 0.2999 | 0.7238 |
512
+ | 4.0 | 24 | 0.1897 | 0.2843 | 0.6946 |
513
+ | 5.0 | 30 | 0.1464 | 0.2776 | 0.7134 |
514
+ | 6.0 | 36 | 0.1112 | 0.2877 | 0.6509 |
515
+ | 7.0 | 42 | 0.087 | 0.3047 | 0.6509 |
516
+ | 8.0 | 48 | 0.0754 | 0.3135 | 0.6509 |
517
+ | 9.0 | 54 | 0.068 | 0.3150 | 0.6509 |
518
+ | 10.0 | 60 | 0.0588 | 0.3148 | 0.6509 |
519
+
520
+
521
  ### Framework Versions
522
  - Python: 3.10.14
523
  - Sentence Transformers: 3.1.0
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:18a1623c050a93abe098bb3286b4d9d50e5b77464b386af0a41669eafc9b5da1
3
  size 442491744
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c398d788c3c9eddbd690d96649f0d0fdc6601934c54d199ab895088e46bb5ccd
3
  size 442491744
runs/Sep17_23-47-31_default/events.out.tfevents.1726616853.default.8433.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e5714b312f0efb28d1323371ee280fc1148b233cd7c3ae98aea10da8a692d02
3
+ size 39857
tokenizer_config.json CHANGED
@@ -1,65 +1,15 @@
1
  {
2
- "added_tokens_decoder": {
3
- "0": {
4
- "content": "<pad>",
5
- "lstrip": false,
6
- "normalized": false,
7
- "rstrip": false,
8
- "single_word": false,
9
- "special": true
10
- },
11
- "1": {
12
- "content": "<unk>",
13
- "lstrip": false,
14
- "normalized": true,
15
- "rstrip": false,
16
- "single_word": false,
17
- "special": true
18
- },
19
- "2": {
20
- "content": "[CLS]",
21
- "lstrip": false,
22
- "normalized": false,
23
- "rstrip": false,
24
- "single_word": false,
25
- "special": false
26
- },
27
- "3": {
28
- "content": "[SEP]",
29
- "lstrip": false,
30
- "normalized": false,
31
- "rstrip": false,
32
- "single_word": false,
33
- "special": false
34
- },
35
- "4": {
36
- "content": "[MASK]",
37
- "lstrip": false,
38
- "normalized": false,
39
- "rstrip": false,
40
- "single_word": false,
41
- "special": false
42
- },
43
- "32000": {
44
- "content": "[PAD]",
45
- "lstrip": false,
46
- "normalized": true,
47
- "rstrip": false,
48
- "single_word": false,
49
- "special": false
50
- }
51
- },
52
- "bos_token": "[CLS]",
53
- "clean_up_tokenization_spaces": true,
54
- "cls_token": "[CLS]",
55
- "do_lower_case": false,
56
- "eos_token": "[SEP]",
57
- "mask_token": "[MASK]",
58
- "model_max_length": 512,
59
- "pad_token": "<pad>",
60
- "sep_token": "[SEP]",
61
- "sp_model_kwargs": {},
62
- "split_by_punct": false,
63
- "tokenizer_class": "DebertaV2Tokenizer",
64
- "unk_token": "<unk>"
65
- }
 
1
  {
2
+ "bos_token": "[CLS]",
3
+ "clean_up_tokenization_spaces": true,
4
+ "cls_token": "[CLS]",
5
+ "do_lower_case": false,
6
+ "eos_token": "[SEP]",
7
+ "mask_token": "[MASK]",
8
+ "model_max_length": 512,
9
+ "pad_token": "<pad>",
10
+ "sep_token": "[SEP]",
11
+ "sp_model_kwargs": {},
12
+ "split_by_punct": false,
13
+ "tokenizer_class": "DebertaV2Tokenizer",
14
+ "unk_token": "<unk>"
15
+ }