keegan111 commited on
Commit
93d8979
·
verified ·
1 Parent(s): 637ca39

Add files using upload-large-folder tool

Browse files
This view is limited to 50 files because it contains too many changes.   See raw diff
Files changed (50) hide show
  1. cross_cell_type_generization/L1/Neutrophils/fold3/checkpoint-1309/trainer_state.json +398 -0
  2. scaling_performance/2000/.DS_Store +0 -0
  3. scaling_performance/2000/L2/.DS_Store +0 -0
  4. scaling_performance/2000/L2/fold0/all_results.json +8 -0
  5. scaling_performance/2000/L2/fold0/checkpoint-208/config.json +25 -0
  6. scaling_performance/2000/L2/fold0/checkpoint-208/trainer_state.json +770 -0
  7. scaling_performance/2000/L2/fold0/config.json +25 -0
  8. scaling_performance/2000/L2/fold0/eval_results.json +8 -0
  9. scaling_performance/2000/L2/fold1/all_results.json +8 -0
  10. scaling_performance/2000/L2/fold1/checkpoint-320/config.json +25 -0
  11. scaling_performance/2000/L2/fold1/checkpoint-320/trainer_state.json +1176 -0
  12. scaling_performance/2000/L2/fold1/config.json +25 -0
  13. scaling_performance/2000/L2/fold1/eval_results.json +8 -0
  14. scaling_performance/2000/L2/fold2/all_results.json +8 -0
  15. scaling_performance/2000/L2/fold2/checkpoint-176/config.json +25 -0
  16. scaling_performance/2000/L2/fold2/checkpoint-176/trainer_state.json +654 -0
  17. scaling_performance/2000/L2/fold2/config.json +25 -0
  18. scaling_performance/2000/L2/fold2/eval_results.json +8 -0
  19. scaling_performance/2000/L2/fold3/all_results.json +8 -0
  20. scaling_performance/2000/L2/fold3/checkpoint-128/config.json +25 -0
  21. scaling_performance/2000/L2/fold3/checkpoint-128/trainer_state.json +480 -0
  22. scaling_performance/2000/L2/fold3/config.json +25 -0
  23. scaling_performance/2000/L2/fold3/eval_results.json +8 -0
  24. scaling_performance/2000/L2/fold4/all_results.json +8 -0
  25. scaling_performance/2000/L2/fold4/checkpoint-160/config.json +25 -0
  26. scaling_performance/2000/L2/fold4/checkpoint-160/trainer_state.json +596 -0
  27. scaling_performance/2000/L2/fold4/config.json +25 -0
  28. scaling_performance/2000/L2/fold4/eval_results.json +8 -0
  29. scaling_performance/2000/L4/.DS_Store +0 -0
  30. scaling_performance/2000/L4/fold0/all_results.json +8 -0
  31. scaling_performance/2000/L4/fold0/checkpoint-208/config.json +25 -0
  32. scaling_performance/2000/L4/fold0/checkpoint-208/trainer_state.json +770 -0
  33. scaling_performance/2000/L4/fold0/config.json +25 -0
  34. scaling_performance/2000/L4/fold0/eval_results.json +8 -0
  35. scaling_performance/2000/L4/fold1/all_results.json +8 -0
  36. scaling_performance/2000/L4/fold1/checkpoint-320/config.json +25 -0
  37. scaling_performance/2000/L4/fold1/checkpoint-320/trainer_state.json +1176 -0
  38. scaling_performance/2000/L4/fold1/config.json +25 -0
  39. scaling_performance/2000/L4/fold1/eval_results.json +8 -0
  40. scaling_performance/2000/L4/fold2/all_results.json +8 -0
  41. scaling_performance/2000/L4/fold2/checkpoint-176/config.json +25 -0
  42. scaling_performance/2000/L4/fold2/checkpoint-176/trainer_state.json +654 -0
  43. scaling_performance/2000/L4/fold2/config.json +25 -0
  44. scaling_performance/2000/L4/fold2/eval_results.json +8 -0
  45. scaling_performance/2000/L4/fold3/all_results.json +8 -0
  46. scaling_performance/2000/L4/fold3/checkpoint-112/config.json +25 -0
  47. scaling_performance/2000/L4/fold3/checkpoint-112/trainer_state.json +422 -0
  48. scaling_performance/2000/L4/fold3/config.json +25 -0
  49. scaling_performance/2000/L4/fold3/eval_results.json +8 -0
  50. scaling_performance/2000/L4/fold4/all_results.json +8 -0
cross_cell_type_generization/L1/Neutrophils/fold3/checkpoint-1309/trainer_state.json ADDED
@@ -0,0 +1,398 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.4226238429546356,
3
+ "best_model_checkpoint": "/vsphhome/fengguoqing/Geneformer/models/data_diversity/L1/Neutrophils/fold3/checkpoint-935",
4
+ "epoch": 7.0,
5
+ "global_step": 1309,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.13,
12
+ "learning_rate": 2.5e-06,
13
+ "loss": 0.6975,
14
+ "step": 25
15
+ },
16
+ {
17
+ "epoch": 0.27,
18
+ "learning_rate": 5e-06,
19
+ "loss": 0.6966,
20
+ "step": 50
21
+ },
22
+ {
23
+ "epoch": 0.4,
24
+ "learning_rate": 7.5e-06,
25
+ "loss": 0.6943,
26
+ "step": 75
27
+ },
28
+ {
29
+ "epoch": 0.53,
30
+ "learning_rate": 1e-05,
31
+ "loss": 0.6909,
32
+ "step": 100
33
+ },
34
+ {
35
+ "epoch": 0.67,
36
+ "learning_rate": 1.25e-05,
37
+ "loss": 0.693,
38
+ "step": 125
39
+ },
40
+ {
41
+ "epoch": 0.8,
42
+ "learning_rate": 1.5e-05,
43
+ "loss": 0.6925,
44
+ "step": 150
45
+ },
46
+ {
47
+ "epoch": 0.94,
48
+ "learning_rate": 1.75e-05,
49
+ "loss": 0.6932,
50
+ "step": 175
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "eval_accuracy": 0.5154766817994222,
55
+ "eval_loss": 0.691068708896637,
56
+ "eval_macro_f1": 0.4829185650936648,
57
+ "eval_runtime": 12.1349,
58
+ "eval_samples_per_second": 399.345,
59
+ "eval_steps_per_second": 3.873,
60
+ "step": 187
61
+ },
62
+ {
63
+ "epoch": 1.07,
64
+ "learning_rate": 2e-05,
65
+ "loss": 0.689,
66
+ "step": 200
67
+ },
68
+ {
69
+ "epoch": 1.2,
70
+ "learning_rate": 2.25e-05,
71
+ "loss": 0.6908,
72
+ "step": 225
73
+ },
74
+ {
75
+ "epoch": 1.34,
76
+ "learning_rate": 2.5e-05,
77
+ "loss": 0.6886,
78
+ "step": 250
79
+ },
80
+ {
81
+ "epoch": 1.47,
82
+ "learning_rate": 2.7500000000000004e-05,
83
+ "loss": 0.6884,
84
+ "step": 275
85
+ },
86
+ {
87
+ "epoch": 1.6,
88
+ "learning_rate": 3e-05,
89
+ "loss": 0.6875,
90
+ "step": 300
91
+ },
92
+ {
93
+ "epoch": 1.74,
94
+ "learning_rate": 3.2500000000000004e-05,
95
+ "loss": 0.6887,
96
+ "step": 325
97
+ },
98
+ {
99
+ "epoch": 1.87,
100
+ "learning_rate": 3.5e-05,
101
+ "loss": 0.6864,
102
+ "step": 350
103
+ },
104
+ {
105
+ "epoch": 2.0,
106
+ "eval_accuracy": 0.5435410647957079,
107
+ "eval_loss": 0.6844078302383423,
108
+ "eval_macro_f1": 0.43449410435016383,
109
+ "eval_runtime": 11.9965,
110
+ "eval_samples_per_second": 403.952,
111
+ "eval_steps_per_second": 3.918,
112
+ "step": 374
113
+ },
114
+ {
115
+ "epoch": 2.01,
116
+ "learning_rate": 3.7500000000000003e-05,
117
+ "loss": 0.6836,
118
+ "step": 375
119
+ },
120
+ {
121
+ "epoch": 2.14,
122
+ "learning_rate": 4e-05,
123
+ "loss": 0.6815,
124
+ "step": 400
125
+ },
126
+ {
127
+ "epoch": 2.27,
128
+ "learning_rate": 4.25e-05,
129
+ "loss": 0.6778,
130
+ "step": 425
131
+ },
132
+ {
133
+ "epoch": 2.41,
134
+ "learning_rate": 4.5e-05,
135
+ "loss": 0.6637,
136
+ "step": 450
137
+ },
138
+ {
139
+ "epoch": 2.54,
140
+ "learning_rate": 4.75e-05,
141
+ "loss": 0.6206,
142
+ "step": 475
143
+ },
144
+ {
145
+ "epoch": 2.67,
146
+ "learning_rate": 5e-05,
147
+ "loss": 0.565,
148
+ "step": 500
149
+ },
150
+ {
151
+ "epoch": 2.81,
152
+ "learning_rate": 4.9858757062146896e-05,
153
+ "loss": 0.5312,
154
+ "step": 525
155
+ },
156
+ {
157
+ "epoch": 2.94,
158
+ "learning_rate": 4.971751412429379e-05,
159
+ "loss": 0.4995,
160
+ "step": 550
161
+ },
162
+ {
163
+ "epoch": 3.0,
164
+ "eval_accuracy": 0.7602146099876187,
165
+ "eval_loss": 0.4883873462677002,
166
+ "eval_macro_f1": 0.7547402082097463,
167
+ "eval_runtime": 11.6796,
168
+ "eval_samples_per_second": 414.91,
169
+ "eval_steps_per_second": 4.024,
170
+ "step": 561
171
+ },
172
+ {
173
+ "epoch": 3.07,
174
+ "learning_rate": 4.957627118644068e-05,
175
+ "loss": 0.4676,
176
+ "step": 575
177
+ },
178
+ {
179
+ "epoch": 3.21,
180
+ "learning_rate": 4.9435028248587575e-05,
181
+ "loss": 0.4293,
182
+ "step": 600
183
+ },
184
+ {
185
+ "epoch": 3.34,
186
+ "learning_rate": 4.929378531073446e-05,
187
+ "loss": 0.4152,
188
+ "step": 625
189
+ },
190
+ {
191
+ "epoch": 3.48,
192
+ "learning_rate": 4.915254237288136e-05,
193
+ "loss": 0.4157,
194
+ "step": 650
195
+ },
196
+ {
197
+ "epoch": 3.61,
198
+ "learning_rate": 4.9011299435028255e-05,
199
+ "loss": 0.4014,
200
+ "step": 675
201
+ },
202
+ {
203
+ "epoch": 3.74,
204
+ "learning_rate": 4.887005649717514e-05,
205
+ "loss": 0.4173,
206
+ "step": 700
207
+ },
208
+ {
209
+ "epoch": 3.88,
210
+ "learning_rate": 4.8728813559322034e-05,
211
+ "loss": 0.4106,
212
+ "step": 725
213
+ },
214
+ {
215
+ "epoch": 4.0,
216
+ "eval_accuracy": 0.7963268675196038,
217
+ "eval_loss": 0.428460955619812,
218
+ "eval_macro_f1": 0.7931237082942566,
219
+ "eval_runtime": 12.1845,
220
+ "eval_samples_per_second": 397.719,
221
+ "eval_steps_per_second": 3.857,
222
+ "step": 748
223
+ },
224
+ {
225
+ "epoch": 4.01,
226
+ "learning_rate": 4.8587570621468934e-05,
227
+ "loss": 0.3815,
228
+ "step": 750
229
+ },
230
+ {
231
+ "epoch": 4.14,
232
+ "learning_rate": 4.844632768361582e-05,
233
+ "loss": 0.3347,
234
+ "step": 775
235
+ },
236
+ {
237
+ "epoch": 4.28,
238
+ "learning_rate": 4.8305084745762714e-05,
239
+ "loss": 0.3282,
240
+ "step": 800
241
+ },
242
+ {
243
+ "epoch": 4.41,
244
+ "learning_rate": 4.816384180790961e-05,
245
+ "loss": 0.3406,
246
+ "step": 825
247
+ },
248
+ {
249
+ "epoch": 4.55,
250
+ "learning_rate": 4.80225988700565e-05,
251
+ "loss": 0.3185,
252
+ "step": 850
253
+ },
254
+ {
255
+ "epoch": 4.68,
256
+ "learning_rate": 4.788135593220339e-05,
257
+ "loss": 0.3311,
258
+ "step": 875
259
+ },
260
+ {
261
+ "epoch": 4.81,
262
+ "learning_rate": 4.7740112994350286e-05,
263
+ "loss": 0.3294,
264
+ "step": 900
265
+ },
266
+ {
267
+ "epoch": 4.95,
268
+ "learning_rate": 4.759887005649718e-05,
269
+ "loss": 0.3394,
270
+ "step": 925
271
+ },
272
+ {
273
+ "epoch": 5.0,
274
+ "eval_accuracy": 0.797358646306232,
275
+ "eval_loss": 0.4226238429546356,
276
+ "eval_macro_f1": 0.79729180116589,
277
+ "eval_runtime": 11.9309,
278
+ "eval_samples_per_second": 406.172,
279
+ "eval_steps_per_second": 3.939,
280
+ "step": 935
281
+ },
282
+ {
283
+ "epoch": 5.08,
284
+ "learning_rate": 4.745762711864407e-05,
285
+ "loss": 0.2855,
286
+ "step": 950
287
+ },
288
+ {
289
+ "epoch": 5.21,
290
+ "learning_rate": 4.7316384180790966e-05,
291
+ "loss": 0.2783,
292
+ "step": 975
293
+ },
294
+ {
295
+ "epoch": 5.35,
296
+ "learning_rate": 4.717514124293785e-05,
297
+ "loss": 0.2821,
298
+ "step": 1000
299
+ },
300
+ {
301
+ "epoch": 5.48,
302
+ "learning_rate": 4.703389830508475e-05,
303
+ "loss": 0.2609,
304
+ "step": 1025
305
+ },
306
+ {
307
+ "epoch": 5.61,
308
+ "learning_rate": 4.689265536723164e-05,
309
+ "loss": 0.2822,
310
+ "step": 1050
311
+ },
312
+ {
313
+ "epoch": 5.75,
314
+ "learning_rate": 4.675141242937853e-05,
315
+ "loss": 0.273,
316
+ "step": 1075
317
+ },
318
+ {
319
+ "epoch": 5.88,
320
+ "learning_rate": 4.6610169491525425e-05,
321
+ "loss": 0.2868,
322
+ "step": 1100
323
+ },
324
+ {
325
+ "epoch": 6.0,
326
+ "eval_accuracy": 0.8052001650846059,
327
+ "eval_loss": 0.4286108911037445,
328
+ "eval_macro_f1": 0.8033503768417375,
329
+ "eval_runtime": 12.1437,
330
+ "eval_samples_per_second": 399.055,
331
+ "eval_steps_per_second": 3.87,
332
+ "step": 1122
333
+ },
334
+ {
335
+ "epoch": 6.02,
336
+ "learning_rate": 4.646892655367232e-05,
337
+ "loss": 0.2971,
338
+ "step": 1125
339
+ },
340
+ {
341
+ "epoch": 6.15,
342
+ "learning_rate": 4.632768361581921e-05,
343
+ "loss": 0.2251,
344
+ "step": 1150
345
+ },
346
+ {
347
+ "epoch": 6.28,
348
+ "learning_rate": 4.6186440677966104e-05,
349
+ "loss": 0.2308,
350
+ "step": 1175
351
+ },
352
+ {
353
+ "epoch": 6.42,
354
+ "learning_rate": 4.6045197740113e-05,
355
+ "loss": 0.2524,
356
+ "step": 1200
357
+ },
358
+ {
359
+ "epoch": 6.55,
360
+ "learning_rate": 4.590395480225989e-05,
361
+ "loss": 0.2353,
362
+ "step": 1225
363
+ },
364
+ {
365
+ "epoch": 6.68,
366
+ "learning_rate": 4.5762711864406784e-05,
367
+ "loss": 0.2587,
368
+ "step": 1250
369
+ },
370
+ {
371
+ "epoch": 6.82,
372
+ "learning_rate": 4.562146892655367e-05,
373
+ "loss": 0.2358,
374
+ "step": 1275
375
+ },
376
+ {
377
+ "epoch": 6.95,
378
+ "learning_rate": 4.548022598870056e-05,
379
+ "loss": 0.231,
380
+ "step": 1300
381
+ },
382
+ {
383
+ "epoch": 7.0,
384
+ "eval_accuracy": 0.8037556747833264,
385
+ "eval_loss": 0.4610762596130371,
386
+ "eval_macro_f1": 0.8037225017799383,
387
+ "eval_runtime": 11.9283,
388
+ "eval_samples_per_second": 406.26,
389
+ "eval_steps_per_second": 3.94,
390
+ "step": 1309
391
+ }
392
+ ],
393
+ "max_steps": 9350,
394
+ "num_train_epochs": 50,
395
+ "total_flos": 990317516267520.0,
396
+ "trial_name": null,
397
+ "trial_params": null
398
+ }
scaling_performance/2000/.DS_Store ADDED
Binary file (18.4 kB). View file
 
scaling_performance/2000/L2/.DS_Store ADDED
Binary file (6.15 kB). View file
 
scaling_performance/2000/L2/fold0/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.575,
3
+ "test_loss": 0.6815145611763,
4
+ "test_macro_f1": 0.36507936507936506,
5
+ "test_runtime": 0.9708,
6
+ "test_samples_per_second": 412.051,
7
+ "test_steps_per_second": 4.121
8
+ }
scaling_performance/2000/L2/fold0/checkpoint-208/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold0/checkpoint-208/trainer_state.json ADDED
@@ -0,0 +1,770 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6815145611763,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers2_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold0/checkpoint-176",
4
+ "epoch": 13.0,
5
+ "global_step": 208,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6985,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.6829,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.6781,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.7016,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.6837,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.6822,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6957,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6711,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.5675,
61
+ "eval_loss": 0.6868653297424316,
62
+ "eval_macro_f1": 0.4007568475653582,
63
+ "eval_runtime": 0.9079,
64
+ "eval_samples_per_second": 440.586,
65
+ "eval_steps_per_second": 4.406,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.687,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.6824,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.6806,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.6971,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.6899,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.6869,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6945,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.6883,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.57,
119
+ "eval_loss": 0.6863564848899841,
120
+ "eval_macro_f1": 0.40203031567236824,
121
+ "eval_runtime": 0.8835,
122
+ "eval_samples_per_second": 452.754,
123
+ "eval_steps_per_second": 4.528,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.706,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.6818,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.6838,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6986,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.6781,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6807,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6958,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6728,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.5725,
177
+ "eval_loss": 0.6860520839691162,
178
+ "eval_macro_f1": 0.3988134475939354,
179
+ "eval_runtime": 0.9358,
180
+ "eval_samples_per_second": 427.462,
181
+ "eval_steps_per_second": 4.275,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6949,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6832,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.679,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.7016,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6823,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6809,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6962,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6735,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.5725,
235
+ "eval_loss": 0.6853413581848145,
236
+ "eval_macro_f1": 0.38949829969921185,
237
+ "eval_runtime": 0.9811,
238
+ "eval_samples_per_second": 407.707,
239
+ "eval_steps_per_second": 4.077,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.7103,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6672,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6879,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.6956,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6704,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.6779,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6982,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6842,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.57,
293
+ "eval_loss": 0.6844683885574341,
294
+ "eval_macro_f1": 0.3630573248407643,
295
+ "eval_runtime": 1.1196,
296
+ "eval_samples_per_second": 357.275,
297
+ "eval_steps_per_second": 3.573,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.6918,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.6828,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6874,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6971,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.6732,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6778,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6941,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6805,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.57,
351
+ "eval_loss": 0.6841095089912415,
352
+ "eval_macro_f1": 0.3630573248407643,
353
+ "eval_runtime": 1.0842,
354
+ "eval_samples_per_second": 368.94,
355
+ "eval_steps_per_second": 3.689,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.6922,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6873,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6759,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.6972,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6703,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6669,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.7025,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.6864,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.5725,
409
+ "eval_loss": 0.683830738067627,
410
+ "eval_macro_f1": 0.3640699523052464,
411
+ "eval_runtime": 0.9335,
412
+ "eval_samples_per_second": 428.484,
413
+ "eval_steps_per_second": 4.285,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.7027,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.6771,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.6702,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.7039,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6806,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.675,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.6876,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6704,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.5725,
467
+ "eval_loss": 0.683628261089325,
468
+ "eval_macro_f1": 0.3640699523052464,
469
+ "eval_runtime": 0.9805,
470
+ "eval_samples_per_second": 407.957,
471
+ "eval_steps_per_second": 4.08,
472
+ "step": 128
473
+ },
474
+ {
475
+ "epoch": 8.12,
476
+ "learning_rate": 1.0833333333333334e-05,
477
+ "loss": 0.683,
478
+ "step": 130
479
+ },
480
+ {
481
+ "epoch": 8.25,
482
+ "learning_rate": 1.1000000000000001e-05,
483
+ "loss": 0.6854,
484
+ "step": 132
485
+ },
486
+ {
487
+ "epoch": 8.38,
488
+ "learning_rate": 1.1166666666666668e-05,
489
+ "loss": 0.6849,
490
+ "step": 134
491
+ },
492
+ {
493
+ "epoch": 8.5,
494
+ "learning_rate": 1.1333333333333334e-05,
495
+ "loss": 0.7049,
496
+ "step": 136
497
+ },
498
+ {
499
+ "epoch": 8.62,
500
+ "learning_rate": 1.1500000000000002e-05,
501
+ "loss": 0.6788,
502
+ "step": 138
503
+ },
504
+ {
505
+ "epoch": 8.75,
506
+ "learning_rate": 1.1666666666666668e-05,
507
+ "loss": 0.6739,
508
+ "step": 140
509
+ },
510
+ {
511
+ "epoch": 8.88,
512
+ "learning_rate": 1.1833333333333334e-05,
513
+ "loss": 0.6886,
514
+ "step": 142
515
+ },
516
+ {
517
+ "epoch": 9.0,
518
+ "learning_rate": 1.2e-05,
519
+ "loss": 0.656,
520
+ "step": 144
521
+ },
522
+ {
523
+ "epoch": 9.0,
524
+ "eval_accuracy": 0.575,
525
+ "eval_loss": 0.682921290397644,
526
+ "eval_macro_f1": 0.36507936507936506,
527
+ "eval_runtime": 1.0912,
528
+ "eval_samples_per_second": 366.574,
529
+ "eval_steps_per_second": 3.666,
530
+ "step": 144
531
+ },
532
+ {
533
+ "epoch": 9.12,
534
+ "learning_rate": 1.2166666666666668e-05,
535
+ "loss": 0.6808,
536
+ "step": 146
537
+ },
538
+ {
539
+ "epoch": 9.25,
540
+ "learning_rate": 1.2333333333333334e-05,
541
+ "loss": 0.6705,
542
+ "step": 148
543
+ },
544
+ {
545
+ "epoch": 9.38,
546
+ "learning_rate": 1.25e-05,
547
+ "loss": 0.6771,
548
+ "step": 150
549
+ },
550
+ {
551
+ "epoch": 9.5,
552
+ "learning_rate": 1.2666666666666668e-05,
553
+ "loss": 0.7135,
554
+ "step": 152
555
+ },
556
+ {
557
+ "epoch": 9.62,
558
+ "learning_rate": 1.2833333333333333e-05,
559
+ "loss": 0.6682,
560
+ "step": 154
561
+ },
562
+ {
563
+ "epoch": 9.75,
564
+ "learning_rate": 1.3000000000000001e-05,
565
+ "loss": 0.6772,
566
+ "step": 156
567
+ },
568
+ {
569
+ "epoch": 9.88,
570
+ "learning_rate": 1.3166666666666665e-05,
571
+ "loss": 0.7109,
572
+ "step": 158
573
+ },
574
+ {
575
+ "epoch": 10.0,
576
+ "learning_rate": 1.3333333333333333e-05,
577
+ "loss": 0.6511,
578
+ "step": 160
579
+ },
580
+ {
581
+ "epoch": 10.0,
582
+ "eval_accuracy": 0.575,
583
+ "eval_loss": 0.6817663311958313,
584
+ "eval_macro_f1": 0.36507936507936506,
585
+ "eval_runtime": 0.9437,
586
+ "eval_samples_per_second": 423.851,
587
+ "eval_steps_per_second": 4.239,
588
+ "step": 160
589
+ },
590
+ {
591
+ "epoch": 10.12,
592
+ "learning_rate": 1.3500000000000001e-05,
593
+ "loss": 0.7026,
594
+ "step": 162
595
+ },
596
+ {
597
+ "epoch": 10.25,
598
+ "learning_rate": 1.3666666666666666e-05,
599
+ "loss": 0.6795,
600
+ "step": 164
601
+ },
602
+ {
603
+ "epoch": 10.38,
604
+ "learning_rate": 1.3833333333333334e-05,
605
+ "loss": 0.674,
606
+ "step": 166
607
+ },
608
+ {
609
+ "epoch": 10.5,
610
+ "learning_rate": 1.4000000000000001e-05,
611
+ "loss": 0.6749,
612
+ "step": 168
613
+ },
614
+ {
615
+ "epoch": 10.62,
616
+ "learning_rate": 1.4166666666666668e-05,
617
+ "loss": 0.6828,
618
+ "step": 170
619
+ },
620
+ {
621
+ "epoch": 10.75,
622
+ "learning_rate": 1.4333333333333334e-05,
623
+ "loss": 0.6673,
624
+ "step": 172
625
+ },
626
+ {
627
+ "epoch": 10.88,
628
+ "learning_rate": 1.45e-05,
629
+ "loss": 0.7079,
630
+ "step": 174
631
+ },
632
+ {
633
+ "epoch": 11.0,
634
+ "learning_rate": 1.4666666666666668e-05,
635
+ "loss": 0.6569,
636
+ "step": 176
637
+ },
638
+ {
639
+ "epoch": 11.0,
640
+ "eval_accuracy": 0.575,
641
+ "eval_loss": 0.6815145611763,
642
+ "eval_macro_f1": 0.36507936507936506,
643
+ "eval_runtime": 0.9326,
644
+ "eval_samples_per_second": 428.928,
645
+ "eval_steps_per_second": 4.289,
646
+ "step": 176
647
+ },
648
+ {
649
+ "epoch": 11.12,
650
+ "learning_rate": 1.4833333333333336e-05,
651
+ "loss": 0.6956,
652
+ "step": 178
653
+ },
654
+ {
655
+ "epoch": 11.25,
656
+ "learning_rate": 1.5e-05,
657
+ "loss": 0.6764,
658
+ "step": 180
659
+ },
660
+ {
661
+ "epoch": 11.38,
662
+ "learning_rate": 1.5166666666666668e-05,
663
+ "loss": 0.6698,
664
+ "step": 182
665
+ },
666
+ {
667
+ "epoch": 11.5,
668
+ "learning_rate": 1.5333333333333334e-05,
669
+ "loss": 0.6934,
670
+ "step": 184
671
+ },
672
+ {
673
+ "epoch": 11.62,
674
+ "learning_rate": 1.55e-05,
675
+ "loss": 0.6608,
676
+ "step": 186
677
+ },
678
+ {
679
+ "epoch": 11.75,
680
+ "learning_rate": 1.5666666666666667e-05,
681
+ "loss": 0.6743,
682
+ "step": 188
683
+ },
684
+ {
685
+ "epoch": 11.88,
686
+ "learning_rate": 1.5833333333333333e-05,
687
+ "loss": 0.6935,
688
+ "step": 190
689
+ },
690
+ {
691
+ "epoch": 12.0,
692
+ "learning_rate": 1.6000000000000003e-05,
693
+ "loss": 0.6719,
694
+ "step": 192
695
+ },
696
+ {
697
+ "epoch": 12.0,
698
+ "eval_accuracy": 0.575,
699
+ "eval_loss": 0.6815577745437622,
700
+ "eval_macro_f1": 0.36507936507936506,
701
+ "eval_runtime": 0.9976,
702
+ "eval_samples_per_second": 400.946,
703
+ "eval_steps_per_second": 4.009,
704
+ "step": 192
705
+ },
706
+ {
707
+ "epoch": 12.12,
708
+ "learning_rate": 1.6166666666666665e-05,
709
+ "loss": 0.6993,
710
+ "step": 194
711
+ },
712
+ {
713
+ "epoch": 12.25,
714
+ "learning_rate": 1.6333333333333335e-05,
715
+ "loss": 0.6802,
716
+ "step": 196
717
+ },
718
+ {
719
+ "epoch": 12.38,
720
+ "learning_rate": 1.65e-05,
721
+ "loss": 0.6714,
722
+ "step": 198
723
+ },
724
+ {
725
+ "epoch": 12.5,
726
+ "learning_rate": 1.6666666666666667e-05,
727
+ "loss": 0.6889,
728
+ "step": 200
729
+ },
730
+ {
731
+ "epoch": 12.62,
732
+ "learning_rate": 1.6833333333333334e-05,
733
+ "loss": 0.6715,
734
+ "step": 202
735
+ },
736
+ {
737
+ "epoch": 12.75,
738
+ "learning_rate": 1.7000000000000003e-05,
739
+ "loss": 0.6763,
740
+ "step": 204
741
+ },
742
+ {
743
+ "epoch": 12.88,
744
+ "learning_rate": 1.7166666666666666e-05,
745
+ "loss": 0.6868,
746
+ "step": 206
747
+ },
748
+ {
749
+ "epoch": 13.0,
750
+ "learning_rate": 1.7333333333333336e-05,
751
+ "loss": 0.6516,
752
+ "step": 208
753
+ },
754
+ {
755
+ "epoch": 13.0,
756
+ "eval_accuracy": 0.585,
757
+ "eval_loss": 0.6822723150253296,
758
+ "eval_macro_f1": 0.40501792114695345,
759
+ "eval_runtime": 0.8812,
760
+ "eval_samples_per_second": 453.944,
761
+ "eval_steps_per_second": 4.539,
762
+ "step": 208
763
+ }
764
+ ],
765
+ "max_steps": 320,
766
+ "num_train_epochs": 20,
767
+ "total_flos": 286523483750400.0,
768
+ "trial_name": null,
769
+ "trial_params": null
770
+ }
scaling_performance/2000/L2/fold0/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold0/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.575,
3
+ "test_loss": 0.6815145611763,
4
+ "test_macro_f1": 0.36507936507936506,
5
+ "test_runtime": 0.9708,
6
+ "test_samples_per_second": 412.051,
7
+ "test_steps_per_second": 4.121
8
+ }
scaling_performance/2000/L2/fold1/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.565,
3
+ "test_loss": 0.6680055260658264,
4
+ "test_macro_f1": 0.4771006130544537,
5
+ "test_runtime": 0.9664,
6
+ "test_samples_per_second": 413.918,
7
+ "test_steps_per_second": 4.139
8
+ }
scaling_performance/2000/L2/fold1/checkpoint-320/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold1/checkpoint-320/trainer_state.json ADDED
@@ -0,0 +1,1176 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6680055260658264,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers2_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold1/checkpoint-320",
4
+ "epoch": 20.0,
5
+ "global_step": 320,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6891,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.6971,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.6939,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6935,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.6909,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.6984,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6935,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6935,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.5175,
61
+ "eval_loss": 0.6928809285163879,
62
+ "eval_macro_f1": 0.5169898204979009,
63
+ "eval_runtime": 0.8872,
64
+ "eval_samples_per_second": 450.834,
65
+ "eval_steps_per_second": 4.508,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.6901,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.6877,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.6905,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.6956,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.6957,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.6918,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6924,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.6942,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.5175,
119
+ "eval_loss": 0.691374659538269,
120
+ "eval_macro_f1": 0.5107452262803329,
121
+ "eval_runtime": 1.0093,
122
+ "eval_samples_per_second": 396.31,
123
+ "eval_steps_per_second": 3.963,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.6911,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.6922,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.6917,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6915,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.684,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6924,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6935,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6851,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.54,
177
+ "eval_loss": 0.6890630125999451,
178
+ "eval_macro_f1": 0.4837840870833801,
179
+ "eval_runtime": 0.929,
180
+ "eval_samples_per_second": 430.549,
181
+ "eval_steps_per_second": 4.305,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6922,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6847,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6855,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.6965,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6935,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.684,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6892,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6844,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.575,
235
+ "eval_loss": 0.6868659853935242,
236
+ "eval_macro_f1": 0.4407158836689038,
237
+ "eval_runtime": 0.9167,
238
+ "eval_samples_per_second": 436.364,
239
+ "eval_steps_per_second": 4.364,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.695,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6833,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.678,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.6914,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6837,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.6733,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6994,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6786,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.5625,
293
+ "eval_loss": 0.6852134466171265,
294
+ "eval_macro_f1": 0.3752175581717081,
295
+ "eval_runtime": 0.9926,
296
+ "eval_samples_per_second": 403.001,
297
+ "eval_steps_per_second": 4.03,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.7009,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.6761,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.68,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6956,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.6853,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6761,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6912,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6608,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.5625,
351
+ "eval_loss": 0.6843925714492798,
352
+ "eval_macro_f1": 0.3702714130209879,
353
+ "eval_runtime": 0.9143,
354
+ "eval_samples_per_second": 437.474,
355
+ "eval_steps_per_second": 4.375,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.689,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6762,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6624,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.7094,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6789,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6724,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.6967,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.679,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.5625,
409
+ "eval_loss": 0.683676540851593,
410
+ "eval_macro_f1": 0.36,
411
+ "eval_runtime": 0.9489,
412
+ "eval_samples_per_second": 421.522,
413
+ "eval_steps_per_second": 4.215,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.6991,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.6841,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.6881,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.6963,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6736,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.6722,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.6922,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6501,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.56,
467
+ "eval_loss": 0.6837745904922485,
468
+ "eval_macro_f1": 0.36413887784963334,
469
+ "eval_runtime": 0.978,
470
+ "eval_samples_per_second": 408.981,
471
+ "eval_steps_per_second": 4.09,
472
+ "step": 128
473
+ },
474
+ {
475
+ "epoch": 8.12,
476
+ "learning_rate": 1.0833333333333334e-05,
477
+ "loss": 0.689,
478
+ "step": 130
479
+ },
480
+ {
481
+ "epoch": 8.25,
482
+ "learning_rate": 1.1000000000000001e-05,
483
+ "loss": 0.6726,
484
+ "step": 132
485
+ },
486
+ {
487
+ "epoch": 8.38,
488
+ "learning_rate": 1.1166666666666668e-05,
489
+ "loss": 0.6784,
490
+ "step": 134
491
+ },
492
+ {
493
+ "epoch": 8.5,
494
+ "learning_rate": 1.1333333333333334e-05,
495
+ "loss": 0.6942,
496
+ "step": 136
497
+ },
498
+ {
499
+ "epoch": 8.62,
500
+ "learning_rate": 1.1500000000000002e-05,
501
+ "loss": 0.6816,
502
+ "step": 138
503
+ },
504
+ {
505
+ "epoch": 8.75,
506
+ "learning_rate": 1.1666666666666668e-05,
507
+ "loss": 0.6716,
508
+ "step": 140
509
+ },
510
+ {
511
+ "epoch": 8.88,
512
+ "learning_rate": 1.1833333333333334e-05,
513
+ "loss": 0.6876,
514
+ "step": 142
515
+ },
516
+ {
517
+ "epoch": 9.0,
518
+ "learning_rate": 1.2e-05,
519
+ "loss": 0.6843,
520
+ "step": 144
521
+ },
522
+ {
523
+ "epoch": 9.0,
524
+ "eval_accuracy": 0.5625,
525
+ "eval_loss": 0.6833199858665466,
526
+ "eval_macro_f1": 0.36,
527
+ "eval_runtime": 1.072,
528
+ "eval_samples_per_second": 373.151,
529
+ "eval_steps_per_second": 3.732,
530
+ "step": 144
531
+ },
532
+ {
533
+ "epoch": 9.12,
534
+ "learning_rate": 1.2166666666666668e-05,
535
+ "loss": 0.7016,
536
+ "step": 146
537
+ },
538
+ {
539
+ "epoch": 9.25,
540
+ "learning_rate": 1.2333333333333334e-05,
541
+ "loss": 0.6703,
542
+ "step": 148
543
+ },
544
+ {
545
+ "epoch": 9.38,
546
+ "learning_rate": 1.25e-05,
547
+ "loss": 0.6783,
548
+ "step": 150
549
+ },
550
+ {
551
+ "epoch": 9.5,
552
+ "learning_rate": 1.2666666666666668e-05,
553
+ "loss": 0.6892,
554
+ "step": 152
555
+ },
556
+ {
557
+ "epoch": 9.62,
558
+ "learning_rate": 1.2833333333333333e-05,
559
+ "loss": 0.6673,
560
+ "step": 154
561
+ },
562
+ {
563
+ "epoch": 9.75,
564
+ "learning_rate": 1.3000000000000001e-05,
565
+ "loss": 0.6707,
566
+ "step": 156
567
+ },
568
+ {
569
+ "epoch": 9.88,
570
+ "learning_rate": 1.3166666666666665e-05,
571
+ "loss": 0.6946,
572
+ "step": 158
573
+ },
574
+ {
575
+ "epoch": 10.0,
576
+ "learning_rate": 1.3333333333333333e-05,
577
+ "loss": 0.6606,
578
+ "step": 160
579
+ },
580
+ {
581
+ "epoch": 10.0,
582
+ "eval_accuracy": 0.5625,
583
+ "eval_loss": 0.6831080913543701,
584
+ "eval_macro_f1": 0.36,
585
+ "eval_runtime": 0.9603,
586
+ "eval_samples_per_second": 416.552,
587
+ "eval_steps_per_second": 4.166,
588
+ "step": 160
589
+ },
590
+ {
591
+ "epoch": 10.12,
592
+ "learning_rate": 1.3500000000000001e-05,
593
+ "loss": 0.6884,
594
+ "step": 162
595
+ },
596
+ {
597
+ "epoch": 10.25,
598
+ "learning_rate": 1.3666666666666666e-05,
599
+ "loss": 0.6678,
600
+ "step": 164
601
+ },
602
+ {
603
+ "epoch": 10.38,
604
+ "learning_rate": 1.3833333333333334e-05,
605
+ "loss": 0.6673,
606
+ "step": 166
607
+ },
608
+ {
609
+ "epoch": 10.5,
610
+ "learning_rate": 1.4000000000000001e-05,
611
+ "loss": 0.697,
612
+ "step": 168
613
+ },
614
+ {
615
+ "epoch": 10.62,
616
+ "learning_rate": 1.4166666666666668e-05,
617
+ "loss": 0.6654,
618
+ "step": 170
619
+ },
620
+ {
621
+ "epoch": 10.75,
622
+ "learning_rate": 1.4333333333333334e-05,
623
+ "loss": 0.6878,
624
+ "step": 172
625
+ },
626
+ {
627
+ "epoch": 10.88,
628
+ "learning_rate": 1.45e-05,
629
+ "loss": 0.6999,
630
+ "step": 174
631
+ },
632
+ {
633
+ "epoch": 11.0,
634
+ "learning_rate": 1.4666666666666668e-05,
635
+ "loss": 0.6517,
636
+ "step": 176
637
+ },
638
+ {
639
+ "epoch": 11.0,
640
+ "eval_accuracy": 0.5625,
641
+ "eval_loss": 0.6825976371765137,
642
+ "eval_macro_f1": 0.36,
643
+ "eval_runtime": 0.9579,
644
+ "eval_samples_per_second": 417.581,
645
+ "eval_steps_per_second": 4.176,
646
+ "step": 176
647
+ },
648
+ {
649
+ "epoch": 11.12,
650
+ "learning_rate": 1.4833333333333336e-05,
651
+ "loss": 0.7032,
652
+ "step": 178
653
+ },
654
+ {
655
+ "epoch": 11.25,
656
+ "learning_rate": 1.5e-05,
657
+ "loss": 0.6567,
658
+ "step": 180
659
+ },
660
+ {
661
+ "epoch": 11.38,
662
+ "learning_rate": 1.5166666666666668e-05,
663
+ "loss": 0.6711,
664
+ "step": 182
665
+ },
666
+ {
667
+ "epoch": 11.5,
668
+ "learning_rate": 1.5333333333333334e-05,
669
+ "loss": 0.691,
670
+ "step": 184
671
+ },
672
+ {
673
+ "epoch": 11.62,
674
+ "learning_rate": 1.55e-05,
675
+ "loss": 0.659,
676
+ "step": 186
677
+ },
678
+ {
679
+ "epoch": 11.75,
680
+ "learning_rate": 1.5666666666666667e-05,
681
+ "loss": 0.6765,
682
+ "step": 188
683
+ },
684
+ {
685
+ "epoch": 11.88,
686
+ "learning_rate": 1.5833333333333333e-05,
687
+ "loss": 0.7001,
688
+ "step": 190
689
+ },
690
+ {
691
+ "epoch": 12.0,
692
+ "learning_rate": 1.6000000000000003e-05,
693
+ "loss": 0.6475,
694
+ "step": 192
695
+ },
696
+ {
697
+ "epoch": 12.0,
698
+ "eval_accuracy": 0.5625,
699
+ "eval_loss": 0.6822869777679443,
700
+ "eval_macro_f1": 0.36,
701
+ "eval_runtime": 0.9321,
702
+ "eval_samples_per_second": 429.124,
703
+ "eval_steps_per_second": 4.291,
704
+ "step": 192
705
+ },
706
+ {
707
+ "epoch": 12.12,
708
+ "learning_rate": 1.6166666666666665e-05,
709
+ "loss": 0.6934,
710
+ "step": 194
711
+ },
712
+ {
713
+ "epoch": 12.25,
714
+ "learning_rate": 1.6333333333333335e-05,
715
+ "loss": 0.6718,
716
+ "step": 196
717
+ },
718
+ {
719
+ "epoch": 12.38,
720
+ "learning_rate": 1.65e-05,
721
+ "loss": 0.6756,
722
+ "step": 198
723
+ },
724
+ {
725
+ "epoch": 12.5,
726
+ "learning_rate": 1.6666666666666667e-05,
727
+ "loss": 0.6962,
728
+ "step": 200
729
+ },
730
+ {
731
+ "epoch": 12.62,
732
+ "learning_rate": 1.6833333333333334e-05,
733
+ "loss": 0.6585,
734
+ "step": 202
735
+ },
736
+ {
737
+ "epoch": 12.75,
738
+ "learning_rate": 1.7000000000000003e-05,
739
+ "loss": 0.6658,
740
+ "step": 204
741
+ },
742
+ {
743
+ "epoch": 12.88,
744
+ "learning_rate": 1.7166666666666666e-05,
745
+ "loss": 0.6825,
746
+ "step": 206
747
+ },
748
+ {
749
+ "epoch": 13.0,
750
+ "learning_rate": 1.7333333333333336e-05,
751
+ "loss": 0.6503,
752
+ "step": 208
753
+ },
754
+ {
755
+ "epoch": 13.0,
756
+ "eval_accuracy": 0.5625,
757
+ "eval_loss": 0.6819019913673401,
758
+ "eval_macro_f1": 0.36,
759
+ "eval_runtime": 0.974,
760
+ "eval_samples_per_second": 410.695,
761
+ "eval_steps_per_second": 4.107,
762
+ "step": 208
763
+ },
764
+ {
765
+ "epoch": 13.12,
766
+ "learning_rate": 1.75e-05,
767
+ "loss": 0.6959,
768
+ "step": 210
769
+ },
770
+ {
771
+ "epoch": 13.25,
772
+ "learning_rate": 1.7666666666666668e-05,
773
+ "loss": 0.6671,
774
+ "step": 212
775
+ },
776
+ {
777
+ "epoch": 13.38,
778
+ "learning_rate": 1.7833333333333334e-05,
779
+ "loss": 0.6638,
780
+ "step": 214
781
+ },
782
+ {
783
+ "epoch": 13.5,
784
+ "learning_rate": 1.8e-05,
785
+ "loss": 0.6956,
786
+ "step": 216
787
+ },
788
+ {
789
+ "epoch": 13.62,
790
+ "learning_rate": 1.8166666666666667e-05,
791
+ "loss": 0.6559,
792
+ "step": 218
793
+ },
794
+ {
795
+ "epoch": 13.75,
796
+ "learning_rate": 1.8333333333333333e-05,
797
+ "loss": 0.6626,
798
+ "step": 220
799
+ },
800
+ {
801
+ "epoch": 13.88,
802
+ "learning_rate": 1.85e-05,
803
+ "loss": 0.6882,
804
+ "step": 222
805
+ },
806
+ {
807
+ "epoch": 14.0,
808
+ "learning_rate": 1.866666666666667e-05,
809
+ "loss": 0.6718,
810
+ "step": 224
811
+ },
812
+ {
813
+ "epoch": 14.0,
814
+ "eval_accuracy": 0.5625,
815
+ "eval_loss": 0.681367814540863,
816
+ "eval_macro_f1": 0.36,
817
+ "eval_runtime": 0.8835,
818
+ "eval_samples_per_second": 452.731,
819
+ "eval_steps_per_second": 4.527,
820
+ "step": 224
821
+ },
822
+ {
823
+ "epoch": 14.12,
824
+ "learning_rate": 1.8833333333333335e-05,
825
+ "loss": 0.6819,
826
+ "step": 226
827
+ },
828
+ {
829
+ "epoch": 14.25,
830
+ "learning_rate": 1.9e-05,
831
+ "loss": 0.6612,
832
+ "step": 228
833
+ },
834
+ {
835
+ "epoch": 14.38,
836
+ "learning_rate": 1.9166666666666667e-05,
837
+ "loss": 0.6404,
838
+ "step": 230
839
+ },
840
+ {
841
+ "epoch": 14.5,
842
+ "learning_rate": 1.9333333333333333e-05,
843
+ "loss": 0.6926,
844
+ "step": 232
845
+ },
846
+ {
847
+ "epoch": 14.62,
848
+ "learning_rate": 1.9500000000000003e-05,
849
+ "loss": 0.6661,
850
+ "step": 234
851
+ },
852
+ {
853
+ "epoch": 14.75,
854
+ "learning_rate": 1.9666666666666666e-05,
855
+ "loss": 0.6755,
856
+ "step": 236
857
+ },
858
+ {
859
+ "epoch": 14.88,
860
+ "learning_rate": 1.9833333333333335e-05,
861
+ "loss": 0.6928,
862
+ "step": 238
863
+ },
864
+ {
865
+ "epoch": 15.0,
866
+ "learning_rate": 2e-05,
867
+ "loss": 0.6628,
868
+ "step": 240
869
+ },
870
+ {
871
+ "epoch": 15.0,
872
+ "eval_accuracy": 0.5575,
873
+ "eval_loss": 0.6806111931800842,
874
+ "eval_macro_f1": 0.3579454253611557,
875
+ "eval_runtime": 0.931,
876
+ "eval_samples_per_second": 429.659,
877
+ "eval_steps_per_second": 4.297,
878
+ "step": 240
879
+ },
880
+ {
881
+ "epoch": 15.12,
882
+ "learning_rate": 2.0166666666666668e-05,
883
+ "loss": 0.6946,
884
+ "step": 242
885
+ },
886
+ {
887
+ "epoch": 15.25,
888
+ "learning_rate": 2.0333333333333334e-05,
889
+ "loss": 0.6502,
890
+ "step": 244
891
+ },
892
+ {
893
+ "epoch": 15.38,
894
+ "learning_rate": 2.05e-05,
895
+ "loss": 0.6611,
896
+ "step": 246
897
+ },
898
+ {
899
+ "epoch": 15.5,
900
+ "learning_rate": 2.0666666666666666e-05,
901
+ "loss": 0.6792,
902
+ "step": 248
903
+ },
904
+ {
905
+ "epoch": 15.62,
906
+ "learning_rate": 2.0833333333333336e-05,
907
+ "loss": 0.6507,
908
+ "step": 250
909
+ },
910
+ {
911
+ "epoch": 15.75,
912
+ "learning_rate": 2.1e-05,
913
+ "loss": 0.6608,
914
+ "step": 252
915
+ },
916
+ {
917
+ "epoch": 15.88,
918
+ "learning_rate": 2.116666666666667e-05,
919
+ "loss": 0.6996,
920
+ "step": 254
921
+ },
922
+ {
923
+ "epoch": 16.0,
924
+ "learning_rate": 2.1333333333333335e-05,
925
+ "loss": 0.6546,
926
+ "step": 256
927
+ },
928
+ {
929
+ "epoch": 16.0,
930
+ "eval_accuracy": 0.5625,
931
+ "eval_loss": 0.6797133684158325,
932
+ "eval_macro_f1": 0.3752175581717081,
933
+ "eval_runtime": 0.889,
934
+ "eval_samples_per_second": 449.963,
935
+ "eval_steps_per_second": 4.5,
936
+ "step": 256
937
+ },
938
+ {
939
+ "epoch": 16.12,
940
+ "learning_rate": 2.15e-05,
941
+ "loss": 0.6848,
942
+ "step": 258
943
+ },
944
+ {
945
+ "epoch": 16.25,
946
+ "learning_rate": 2.1666666666666667e-05,
947
+ "loss": 0.6618,
948
+ "step": 260
949
+ },
950
+ {
951
+ "epoch": 16.38,
952
+ "learning_rate": 2.1833333333333333e-05,
953
+ "loss": 0.6626,
954
+ "step": 262
955
+ },
956
+ {
957
+ "epoch": 16.5,
958
+ "learning_rate": 2.2000000000000003e-05,
959
+ "loss": 0.6863,
960
+ "step": 264
961
+ },
962
+ {
963
+ "epoch": 16.62,
964
+ "learning_rate": 2.216666666666667e-05,
965
+ "loss": 0.6545,
966
+ "step": 266
967
+ },
968
+ {
969
+ "epoch": 16.75,
970
+ "learning_rate": 2.2333333333333335e-05,
971
+ "loss": 0.6562,
972
+ "step": 268
973
+ },
974
+ {
975
+ "epoch": 16.88,
976
+ "learning_rate": 2.25e-05,
977
+ "loss": 0.6782,
978
+ "step": 270
979
+ },
980
+ {
981
+ "epoch": 17.0,
982
+ "learning_rate": 2.2666666666666668e-05,
983
+ "loss": 0.6436,
984
+ "step": 272
985
+ },
986
+ {
987
+ "epoch": 17.0,
988
+ "eval_accuracy": 0.5675,
989
+ "eval_loss": 0.6785295009613037,
990
+ "eval_macro_f1": 0.3917820259283674,
991
+ "eval_runtime": 0.9187,
992
+ "eval_samples_per_second": 435.418,
993
+ "eval_steps_per_second": 4.354,
994
+ "step": 272
995
+ },
996
+ {
997
+ "epoch": 17.12,
998
+ "learning_rate": 2.2833333333333334e-05,
999
+ "loss": 0.6759,
1000
+ "step": 274
1001
+ },
1002
+ {
1003
+ "epoch": 17.25,
1004
+ "learning_rate": 2.3000000000000003e-05,
1005
+ "loss": 0.6623,
1006
+ "step": 276
1007
+ },
1008
+ {
1009
+ "epoch": 17.38,
1010
+ "learning_rate": 2.3166666666666666e-05,
1011
+ "loss": 0.667,
1012
+ "step": 278
1013
+ },
1014
+ {
1015
+ "epoch": 17.5,
1016
+ "learning_rate": 2.3333333333333336e-05,
1017
+ "loss": 0.676,
1018
+ "step": 280
1019
+ },
1020
+ {
1021
+ "epoch": 17.62,
1022
+ "learning_rate": 2.35e-05,
1023
+ "loss": 0.634,
1024
+ "step": 282
1025
+ },
1026
+ {
1027
+ "epoch": 17.75,
1028
+ "learning_rate": 2.3666666666666668e-05,
1029
+ "loss": 0.6521,
1030
+ "step": 284
1031
+ },
1032
+ {
1033
+ "epoch": 17.88,
1034
+ "learning_rate": 2.3833333333333334e-05,
1035
+ "loss": 0.672,
1036
+ "step": 286
1037
+ },
1038
+ {
1039
+ "epoch": 18.0,
1040
+ "learning_rate": 2.4e-05,
1041
+ "loss": 0.655,
1042
+ "step": 288
1043
+ },
1044
+ {
1045
+ "epoch": 18.0,
1046
+ "eval_accuracy": 0.5775,
1047
+ "eval_loss": 0.6765074133872986,
1048
+ "eval_macro_f1": 0.4492916554651286,
1049
+ "eval_runtime": 0.8818,
1050
+ "eval_samples_per_second": 453.604,
1051
+ "eval_steps_per_second": 4.536,
1052
+ "step": 288
1053
+ },
1054
+ {
1055
+ "epoch": 18.12,
1056
+ "learning_rate": 2.4166666666666667e-05,
1057
+ "loss": 0.6554,
1058
+ "step": 290
1059
+ },
1060
+ {
1061
+ "epoch": 18.25,
1062
+ "learning_rate": 2.4333333333333336e-05,
1063
+ "loss": 0.6581,
1064
+ "step": 292
1065
+ },
1066
+ {
1067
+ "epoch": 18.38,
1068
+ "learning_rate": 2.45e-05,
1069
+ "loss": 0.6406,
1070
+ "step": 294
1071
+ },
1072
+ {
1073
+ "epoch": 18.5,
1074
+ "learning_rate": 2.466666666666667e-05,
1075
+ "loss": 0.674,
1076
+ "step": 296
1077
+ },
1078
+ {
1079
+ "epoch": 18.62,
1080
+ "learning_rate": 2.4833333333333335e-05,
1081
+ "loss": 0.646,
1082
+ "step": 298
1083
+ },
1084
+ {
1085
+ "epoch": 18.75,
1086
+ "learning_rate": 2.5e-05,
1087
+ "loss": 0.6509,
1088
+ "step": 300
1089
+ },
1090
+ {
1091
+ "epoch": 18.88,
1092
+ "learning_rate": 2.5166666666666667e-05,
1093
+ "loss": 0.6736,
1094
+ "step": 302
1095
+ },
1096
+ {
1097
+ "epoch": 19.0,
1098
+ "learning_rate": 2.5333333333333337e-05,
1099
+ "loss": 0.6412,
1100
+ "step": 304
1101
+ },
1102
+ {
1103
+ "epoch": 19.0,
1104
+ "eval_accuracy": 0.585,
1105
+ "eval_loss": 0.6732388138771057,
1106
+ "eval_macro_f1": 0.47361745306950787,
1107
+ "eval_runtime": 0.8851,
1108
+ "eval_samples_per_second": 451.932,
1109
+ "eval_steps_per_second": 4.519,
1110
+ "step": 304
1111
+ },
1112
+ {
1113
+ "epoch": 19.12,
1114
+ "learning_rate": 2.5500000000000003e-05,
1115
+ "loss": 0.6649,
1116
+ "step": 306
1117
+ },
1118
+ {
1119
+ "epoch": 19.25,
1120
+ "learning_rate": 2.5666666666666666e-05,
1121
+ "loss": 0.6332,
1122
+ "step": 308
1123
+ },
1124
+ {
1125
+ "epoch": 19.38,
1126
+ "learning_rate": 2.5833333333333336e-05,
1127
+ "loss": 0.6379,
1128
+ "step": 310
1129
+ },
1130
+ {
1131
+ "epoch": 19.5,
1132
+ "learning_rate": 2.6000000000000002e-05,
1133
+ "loss": 0.6874,
1134
+ "step": 312
1135
+ },
1136
+ {
1137
+ "epoch": 19.62,
1138
+ "learning_rate": 2.6166666666666668e-05,
1139
+ "loss": 0.6256,
1140
+ "step": 314
1141
+ },
1142
+ {
1143
+ "epoch": 19.75,
1144
+ "learning_rate": 2.633333333333333e-05,
1145
+ "loss": 0.6299,
1146
+ "step": 316
1147
+ },
1148
+ {
1149
+ "epoch": 19.88,
1150
+ "learning_rate": 2.6500000000000004e-05,
1151
+ "loss": 0.651,
1152
+ "step": 318
1153
+ },
1154
+ {
1155
+ "epoch": 20.0,
1156
+ "learning_rate": 2.6666666666666667e-05,
1157
+ "loss": 0.6525,
1158
+ "step": 320
1159
+ },
1160
+ {
1161
+ "epoch": 20.0,
1162
+ "eval_accuracy": 0.565,
1163
+ "eval_loss": 0.6680055260658264,
1164
+ "eval_macro_f1": 0.4771006130544537,
1165
+ "eval_runtime": 0.9151,
1166
+ "eval_samples_per_second": 437.089,
1167
+ "eval_steps_per_second": 4.371,
1168
+ "step": 320
1169
+ }
1170
+ ],
1171
+ "max_steps": 320,
1172
+ "num_train_epochs": 20,
1173
+ "total_flos": 440805359616000.0,
1174
+ "trial_name": null,
1175
+ "trial_params": null
1176
+ }
scaling_performance/2000/L2/fold1/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold1/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.565,
3
+ "test_loss": 0.6680055260658264,
4
+ "test_macro_f1": 0.4771006130544537,
5
+ "test_runtime": 0.9664,
6
+ "test_samples_per_second": 413.918,
7
+ "test_steps_per_second": 4.139
8
+ }
scaling_performance/2000/L2/fold2/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5725,
3
+ "test_loss": 0.6825410723686218,
4
+ "test_macro_f1": 0.3640699523052464,
5
+ "test_runtime": 0.9,
6
+ "test_samples_per_second": 444.435,
7
+ "test_steps_per_second": 4.444
8
+ }
scaling_performance/2000/L2/fold2/checkpoint-176/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold2/checkpoint-176/trainer_state.json ADDED
@@ -0,0 +1,654 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6825410723686218,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers2_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold2/checkpoint-144",
4
+ "epoch": 11.0,
5
+ "global_step": 176,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6951,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.6952,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.6951,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6935,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.6991,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.7022,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6951,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6907,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.51,
61
+ "eval_loss": 0.6931056380271912,
62
+ "eval_macro_f1": 0.5034329001038738,
63
+ "eval_runtime": 0.9276,
64
+ "eval_samples_per_second": 431.232,
65
+ "eval_steps_per_second": 4.312,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.6917,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.6957,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.6985,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.6933,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.6958,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.6945,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.697,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.6915,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.52,
119
+ "eval_loss": 0.6914763450622559,
120
+ "eval_macro_f1": 0.5156285476424733,
121
+ "eval_runtime": 0.9117,
122
+ "eval_samples_per_second": 438.75,
123
+ "eval_steps_per_second": 4.387,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.695,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.6966,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.693,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6895,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.695,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6897,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6951,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6909,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.5225,
177
+ "eval_loss": 0.6889094710350037,
178
+ "eval_macro_f1": 0.48419851605803443,
179
+ "eval_runtime": 0.9272,
180
+ "eval_samples_per_second": 431.396,
181
+ "eval_steps_per_second": 4.314,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6979,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6887,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6828,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.6968,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6933,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6863,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6978,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6794,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.555,
235
+ "eval_loss": 0.6868128776550293,
236
+ "eval_macro_f1": 0.4569031273836766,
237
+ "eval_runtime": 0.9184,
238
+ "eval_samples_per_second": 435.532,
239
+ "eval_steps_per_second": 4.355,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.6924,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.682,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6801,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.6992,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6884,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.6889,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6991,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6817,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.565,
293
+ "eval_loss": 0.6849876642227173,
294
+ "eval_macro_f1": 0.4037828947368421,
295
+ "eval_runtime": 0.9207,
296
+ "eval_samples_per_second": 434.464,
297
+ "eval_steps_per_second": 4.345,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.6966,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.6822,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6888,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6925,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.6816,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6834,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6894,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.68,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.5775,
351
+ "eval_loss": 0.6844278573989868,
352
+ "eval_macro_f1": 0.4012983677409641,
353
+ "eval_runtime": 0.9679,
354
+ "eval_samples_per_second": 413.286,
355
+ "eval_steps_per_second": 4.133,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.6914,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6837,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6772,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.6985,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6801,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6817,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.6974,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.6693,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.575,
409
+ "eval_loss": 0.6832872033119202,
410
+ "eval_macro_f1": 0.37571150526972935,
411
+ "eval_runtime": 1.0002,
412
+ "eval_samples_per_second": 399.934,
413
+ "eval_steps_per_second": 3.999,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.6856,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.6872,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.6762,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.707,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6748,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.6752,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.6962,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6656,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.5725,
467
+ "eval_loss": 0.6828912496566772,
468
+ "eval_macro_f1": 0.3640699523052464,
469
+ "eval_runtime": 1.0195,
470
+ "eval_samples_per_second": 392.347,
471
+ "eval_steps_per_second": 3.923,
472
+ "step": 128
473
+ },
474
+ {
475
+ "epoch": 8.12,
476
+ "learning_rate": 1.0833333333333334e-05,
477
+ "loss": 0.6853,
478
+ "step": 130
479
+ },
480
+ {
481
+ "epoch": 8.25,
482
+ "learning_rate": 1.1000000000000001e-05,
483
+ "loss": 0.6768,
484
+ "step": 132
485
+ },
486
+ {
487
+ "epoch": 8.38,
488
+ "learning_rate": 1.1166666666666668e-05,
489
+ "loss": 0.6818,
490
+ "step": 134
491
+ },
492
+ {
493
+ "epoch": 8.5,
494
+ "learning_rate": 1.1333333333333334e-05,
495
+ "loss": 0.7109,
496
+ "step": 136
497
+ },
498
+ {
499
+ "epoch": 8.62,
500
+ "learning_rate": 1.1500000000000002e-05,
501
+ "loss": 0.6753,
502
+ "step": 138
503
+ },
504
+ {
505
+ "epoch": 8.75,
506
+ "learning_rate": 1.1666666666666668e-05,
507
+ "loss": 0.665,
508
+ "step": 140
509
+ },
510
+ {
511
+ "epoch": 8.88,
512
+ "learning_rate": 1.1833333333333334e-05,
513
+ "loss": 0.703,
514
+ "step": 142
515
+ },
516
+ {
517
+ "epoch": 9.0,
518
+ "learning_rate": 1.2e-05,
519
+ "loss": 0.6611,
520
+ "step": 144
521
+ },
522
+ {
523
+ "epoch": 9.0,
524
+ "eval_accuracy": 0.5725,
525
+ "eval_loss": 0.6825410723686218,
526
+ "eval_macro_f1": 0.3640699523052464,
527
+ "eval_runtime": 0.8832,
528
+ "eval_samples_per_second": 452.887,
529
+ "eval_steps_per_second": 4.529,
530
+ "step": 144
531
+ },
532
+ {
533
+ "epoch": 9.12,
534
+ "learning_rate": 1.2166666666666668e-05,
535
+ "loss": 0.699,
536
+ "step": 146
537
+ },
538
+ {
539
+ "epoch": 9.25,
540
+ "learning_rate": 1.2333333333333334e-05,
541
+ "loss": 0.6714,
542
+ "step": 148
543
+ },
544
+ {
545
+ "epoch": 9.38,
546
+ "learning_rate": 1.25e-05,
547
+ "loss": 0.6725,
548
+ "step": 150
549
+ },
550
+ {
551
+ "epoch": 9.5,
552
+ "learning_rate": 1.2666666666666668e-05,
553
+ "loss": 0.7002,
554
+ "step": 152
555
+ },
556
+ {
557
+ "epoch": 9.62,
558
+ "learning_rate": 1.2833333333333333e-05,
559
+ "loss": 0.6654,
560
+ "step": 154
561
+ },
562
+ {
563
+ "epoch": 9.75,
564
+ "learning_rate": 1.3000000000000001e-05,
565
+ "loss": 0.6717,
566
+ "step": 156
567
+ },
568
+ {
569
+ "epoch": 9.88,
570
+ "learning_rate": 1.3166666666666665e-05,
571
+ "loss": 0.7024,
572
+ "step": 158
573
+ },
574
+ {
575
+ "epoch": 10.0,
576
+ "learning_rate": 1.3333333333333333e-05,
577
+ "loss": 0.6777,
578
+ "step": 160
579
+ },
580
+ {
581
+ "epoch": 10.0,
582
+ "eval_accuracy": 0.5725,
583
+ "eval_loss": 0.6827515363693237,
584
+ "eval_macro_f1": 0.3640699523052464,
585
+ "eval_runtime": 0.9287,
586
+ "eval_samples_per_second": 430.704,
587
+ "eval_steps_per_second": 4.307,
588
+ "step": 160
589
+ },
590
+ {
591
+ "epoch": 10.12,
592
+ "learning_rate": 1.3500000000000001e-05,
593
+ "loss": 0.6908,
594
+ "step": 162
595
+ },
596
+ {
597
+ "epoch": 10.25,
598
+ "learning_rate": 1.3666666666666666e-05,
599
+ "loss": 0.6851,
600
+ "step": 164
601
+ },
602
+ {
603
+ "epoch": 10.38,
604
+ "learning_rate": 1.3833333333333334e-05,
605
+ "loss": 0.6769,
606
+ "step": 166
607
+ },
608
+ {
609
+ "epoch": 10.5,
610
+ "learning_rate": 1.4000000000000001e-05,
611
+ "loss": 0.6925,
612
+ "step": 168
613
+ },
614
+ {
615
+ "epoch": 10.62,
616
+ "learning_rate": 1.4166666666666668e-05,
617
+ "loss": 0.669,
618
+ "step": 170
619
+ },
620
+ {
621
+ "epoch": 10.75,
622
+ "learning_rate": 1.4333333333333334e-05,
623
+ "loss": 0.6761,
624
+ "step": 172
625
+ },
626
+ {
627
+ "epoch": 10.88,
628
+ "learning_rate": 1.45e-05,
629
+ "loss": 0.6964,
630
+ "step": 174
631
+ },
632
+ {
633
+ "epoch": 11.0,
634
+ "learning_rate": 1.4666666666666668e-05,
635
+ "loss": 0.6529,
636
+ "step": 176
637
+ },
638
+ {
639
+ "epoch": 11.0,
640
+ "eval_accuracy": 0.5725,
641
+ "eval_loss": 0.6835572719573975,
642
+ "eval_macro_f1": 0.3640699523052464,
643
+ "eval_runtime": 0.9118,
644
+ "eval_samples_per_second": 438.682,
645
+ "eval_steps_per_second": 4.387,
646
+ "step": 176
647
+ }
648
+ ],
649
+ "max_steps": 320,
650
+ "num_train_epochs": 20,
651
+ "total_flos": 242442947788800.0,
652
+ "trial_name": null,
653
+ "trial_params": null
654
+ }
scaling_performance/2000/L2/fold2/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold2/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5725,
3
+ "test_loss": 0.6825410723686218,
4
+ "test_macro_f1": 0.3640699523052464,
5
+ "test_runtime": 0.9,
6
+ "test_samples_per_second": 444.435,
7
+ "test_steps_per_second": 4.444
8
+ }
scaling_performance/2000/L2/fold3/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5425,
3
+ "test_loss": 0.6928573846817017,
4
+ "test_macro_f1": 0.36142928178241485,
5
+ "test_runtime": 0.9417,
6
+ "test_samples_per_second": 424.768,
7
+ "test_steps_per_second": 4.248
8
+ }
scaling_performance/2000/L2/fold3/checkpoint-128/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold3/checkpoint-128/trainer_state.json ADDED
@@ -0,0 +1,480 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6928573846817017,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers2_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold3/checkpoint-96",
4
+ "epoch": 8.0,
5
+ "global_step": 128,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6926,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.7166,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.718,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6976,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.723,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.7089,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.7068,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6981,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.4475,
61
+ "eval_loss": 0.7057616710662842,
62
+ "eval_macro_f1": 0.32394710880321814,
63
+ "eval_runtime": 0.9148,
64
+ "eval_samples_per_second": 437.24,
65
+ "eval_steps_per_second": 4.372,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.6998,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.7138,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.714,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.699,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.7097,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.7077,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6976,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.719,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.45,
119
+ "eval_loss": 0.7029770612716675,
120
+ "eval_macro_f1": 0.34523809523809523,
121
+ "eval_runtime": 0.8837,
122
+ "eval_samples_per_second": 452.645,
123
+ "eval_steps_per_second": 4.526,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.6957,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.7042,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.7073,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6925,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.7099,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6996,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6964,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.7045,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.44,
177
+ "eval_loss": 0.6990571618080139,
178
+ "eval_macro_f1": 0.3783131192584164,
179
+ "eval_runtime": 0.9721,
180
+ "eval_samples_per_second": 411.464,
181
+ "eval_steps_per_second": 4.115,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6963,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6986,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6979,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.6959,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6955,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6924,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6915,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6959,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.5,
235
+ "eval_loss": 0.6955833435058594,
236
+ "eval_macro_f1": 0.4666666666666667,
237
+ "eval_runtime": 0.9061,
238
+ "eval_samples_per_second": 441.46,
239
+ "eval_steps_per_second": 4.415,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.6924,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6883,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6917,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.694,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.686,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.6822,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6976,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6852,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.5375,
293
+ "eval_loss": 0.6935336589813232,
294
+ "eval_macro_f1": 0.397153587343484,
295
+ "eval_runtime": 1.0976,
296
+ "eval_samples_per_second": 364.418,
297
+ "eval_steps_per_second": 3.644,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.6904,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.6867,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6842,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6996,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.6824,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6809,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6865,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6746,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.5425,
351
+ "eval_loss": 0.6928573846817017,
352
+ "eval_macro_f1": 0.36142928178241485,
353
+ "eval_runtime": 0.9106,
354
+ "eval_samples_per_second": 439.253,
355
+ "eval_steps_per_second": 4.393,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.6961,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6679,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.683,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.7001,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6785,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6704,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.6951,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.681,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.54,
409
+ "eval_loss": 0.6930812001228333,
410
+ "eval_macro_f1": 0.35064935064935066,
411
+ "eval_runtime": 0.8868,
412
+ "eval_samples_per_second": 451.047,
413
+ "eval_steps_per_second": 4.51,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.699,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.6715,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.6644,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.7048,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6792,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.6736,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.6959,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6655,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.54,
467
+ "eval_loss": 0.6934822797775269,
468
+ "eval_macro_f1": 0.35064935064935066,
469
+ "eval_runtime": 0.9074,
470
+ "eval_samples_per_second": 440.807,
471
+ "eval_steps_per_second": 4.408,
472
+ "step": 128
473
+ }
474
+ ],
475
+ "max_steps": 320,
476
+ "num_train_epochs": 20,
477
+ "total_flos": 176322143846400.0,
478
+ "trial_name": null,
479
+ "trial_params": null
480
+ }
scaling_performance/2000/L2/fold3/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold3/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5425,
3
+ "test_loss": 0.6928573846817017,
4
+ "test_macro_f1": 0.36142928178241485,
5
+ "test_runtime": 0.9417,
6
+ "test_samples_per_second": 424.768,
7
+ "test_steps_per_second": 4.248
8
+ }
scaling_performance/2000/L2/fold4/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5775,
3
+ "test_loss": 0.6842468976974487,
4
+ "test_macro_f1": 0.38194285714285714,
5
+ "test_runtime": 1.0481,
6
+ "test_samples_per_second": 381.652,
7
+ "test_steps_per_second": 3.817
8
+ }
scaling_performance/2000/L2/fold4/checkpoint-160/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold4/checkpoint-160/trainer_state.json ADDED
@@ -0,0 +1,596 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6842468976974487,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers2_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold4/checkpoint-128",
4
+ "epoch": 10.0,
5
+ "global_step": 160,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6937,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.7018,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.7031,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6949,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.694,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.7025,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6975,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.7029,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.4575,
61
+ "eval_loss": 0.6974406242370605,
62
+ "eval_macro_f1": 0.4533144386710754,
63
+ "eval_runtime": 0.9243,
64
+ "eval_samples_per_second": 432.744,
65
+ "eval_steps_per_second": 4.327,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.6934,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.7034,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.6945,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.6894,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.7029,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.7002,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6943,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.6983,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.485,
119
+ "eval_loss": 0.695452094078064,
120
+ "eval_macro_f1": 0.4841746794871795,
121
+ "eval_runtime": 0.9144,
122
+ "eval_samples_per_second": 437.423,
123
+ "eval_steps_per_second": 4.374,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.6959,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.6983,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.6905,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6929,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.694,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6945,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6967,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6968,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.495,
177
+ "eval_loss": 0.6920776963233948,
178
+ "eval_macro_f1": 0.47608673098869175,
179
+ "eval_runtime": 0.9068,
180
+ "eval_samples_per_second": 441.113,
181
+ "eval_steps_per_second": 4.411,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6908,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6944,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6914,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.6911,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6893,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6949,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6949,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6868,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.5325,
235
+ "eval_loss": 0.6893474459648132,
236
+ "eval_macro_f1": 0.46399524188289587,
237
+ "eval_runtime": 0.9384,
238
+ "eval_samples_per_second": 426.254,
239
+ "eval_steps_per_second": 4.263,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.6984,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6822,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6864,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.7002,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6897,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.6903,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6941,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6779,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.575,
293
+ "eval_loss": 0.6872670650482178,
294
+ "eval_macro_f1": 0.41748903508771934,
295
+ "eval_runtime": 0.928,
296
+ "eval_samples_per_second": 431.013,
297
+ "eval_steps_per_second": 4.31,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.7031,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.6892,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6823,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6936,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.6907,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.681,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6965,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6675,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.58,
351
+ "eval_loss": 0.6864795088768005,
352
+ "eval_macro_f1": 0.4159365874009178,
353
+ "eval_runtime": 0.9734,
354
+ "eval_samples_per_second": 410.925,
355
+ "eval_steps_per_second": 4.109,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.6914,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6865,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6801,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.699,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6816,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6803,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.6934,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.6765,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.5775,
409
+ "eval_loss": 0.6850780248641968,
410
+ "eval_macro_f1": 0.38696484116404134,
411
+ "eval_runtime": 0.9277,
412
+ "eval_samples_per_second": 431.159,
413
+ "eval_steps_per_second": 4.312,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.6959,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.6815,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.6763,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.698,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6784,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.6672,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.7066,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6902,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.5775,
467
+ "eval_loss": 0.6842468976974487,
468
+ "eval_macro_f1": 0.38194285714285714,
469
+ "eval_runtime": 0.884,
470
+ "eval_samples_per_second": 452.506,
471
+ "eval_steps_per_second": 4.525,
472
+ "step": 128
473
+ },
474
+ {
475
+ "epoch": 8.12,
476
+ "learning_rate": 1.0833333333333334e-05,
477
+ "loss": 0.6862,
478
+ "step": 130
479
+ },
480
+ {
481
+ "epoch": 8.25,
482
+ "learning_rate": 1.1000000000000001e-05,
483
+ "loss": 0.6784,
484
+ "step": 132
485
+ },
486
+ {
487
+ "epoch": 8.38,
488
+ "learning_rate": 1.1166666666666668e-05,
489
+ "loss": 0.6774,
490
+ "step": 134
491
+ },
492
+ {
493
+ "epoch": 8.5,
494
+ "learning_rate": 1.1333333333333334e-05,
495
+ "loss": 0.7004,
496
+ "step": 136
497
+ },
498
+ {
499
+ "epoch": 8.62,
500
+ "learning_rate": 1.1500000000000002e-05,
501
+ "loss": 0.6755,
502
+ "step": 138
503
+ },
504
+ {
505
+ "epoch": 8.75,
506
+ "learning_rate": 1.1666666666666668e-05,
507
+ "loss": 0.68,
508
+ "step": 140
509
+ },
510
+ {
511
+ "epoch": 8.88,
512
+ "learning_rate": 1.1833333333333334e-05,
513
+ "loss": 0.7023,
514
+ "step": 142
515
+ },
516
+ {
517
+ "epoch": 9.0,
518
+ "learning_rate": 1.2e-05,
519
+ "loss": 0.6802,
520
+ "step": 144
521
+ },
522
+ {
523
+ "epoch": 9.0,
524
+ "eval_accuracy": 0.5775,
525
+ "eval_loss": 0.6846153140068054,
526
+ "eval_macro_f1": 0.38696484116404134,
527
+ "eval_runtime": 0.9145,
528
+ "eval_samples_per_second": 437.397,
529
+ "eval_steps_per_second": 4.374,
530
+ "step": 144
531
+ },
532
+ {
533
+ "epoch": 9.12,
534
+ "learning_rate": 1.2166666666666668e-05,
535
+ "loss": 0.6962,
536
+ "step": 146
537
+ },
538
+ {
539
+ "epoch": 9.25,
540
+ "learning_rate": 1.2333333333333334e-05,
541
+ "loss": 0.6717,
542
+ "step": 148
543
+ },
544
+ {
545
+ "epoch": 9.38,
546
+ "learning_rate": 1.25e-05,
547
+ "loss": 0.6783,
548
+ "step": 150
549
+ },
550
+ {
551
+ "epoch": 9.5,
552
+ "learning_rate": 1.2666666666666668e-05,
553
+ "loss": 0.7028,
554
+ "step": 152
555
+ },
556
+ {
557
+ "epoch": 9.62,
558
+ "learning_rate": 1.2833333333333333e-05,
559
+ "loss": 0.683,
560
+ "step": 154
561
+ },
562
+ {
563
+ "epoch": 9.75,
564
+ "learning_rate": 1.3000000000000001e-05,
565
+ "loss": 0.6835,
566
+ "step": 156
567
+ },
568
+ {
569
+ "epoch": 9.88,
570
+ "learning_rate": 1.3166666666666665e-05,
571
+ "loss": 0.687,
572
+ "step": 158
573
+ },
574
+ {
575
+ "epoch": 10.0,
576
+ "learning_rate": 1.3333333333333333e-05,
577
+ "loss": 0.6693,
578
+ "step": 160
579
+ },
580
+ {
581
+ "epoch": 10.0,
582
+ "eval_accuracy": 0.5875,
583
+ "eval_loss": 0.6855114698410034,
584
+ "eval_macro_f1": 0.4199077125906394,
585
+ "eval_runtime": 1.013,
586
+ "eval_samples_per_second": 394.875,
587
+ "eval_steps_per_second": 3.949,
588
+ "step": 160
589
+ }
590
+ ],
591
+ "max_steps": 320,
592
+ "num_train_epochs": 20,
593
+ "total_flos": 220402679808000.0,
594
+ "trial_name": null,
595
+ "trial_params": null
596
+ }
scaling_performance/2000/L2/fold4/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 2,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L2/fold4/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5775,
3
+ "test_loss": 0.6842468976974487,
4
+ "test_macro_f1": 0.38194285714285714,
5
+ "test_runtime": 1.0481,
6
+ "test_samples_per_second": 381.652,
7
+ "test_steps_per_second": 3.817
8
+ }
scaling_performance/2000/L4/.DS_Store ADDED
Binary file (6.15 kB). View file
 
scaling_performance/2000/L4/fold0/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.575,
3
+ "test_loss": 0.6820950508117676,
4
+ "test_macro_f1": 0.36507936507936506,
5
+ "test_runtime": 1.1206,
6
+ "test_samples_per_second": 356.963,
7
+ "test_steps_per_second": 3.57
8
+ }
scaling_performance/2000/L4/fold0/checkpoint-208/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold0/checkpoint-208/trainer_state.json ADDED
@@ -0,0 +1,770 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6820950508117676,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers4_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold0/checkpoint-176",
4
+ "epoch": 13.0,
5
+ "global_step": 208,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.7054,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.6834,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.6727,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6992,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.686,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.68,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6949,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6664,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.575,
61
+ "eval_loss": 0.6863978505134583,
62
+ "eval_macro_f1": 0.3704636350170345,
63
+ "eval_runtime": 1.1223,
64
+ "eval_samples_per_second": 356.401,
65
+ "eval_steps_per_second": 3.564,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.6883,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.6829,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.6752,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.7028,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.6865,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.6806,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6967,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.6913,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.5775,
119
+ "eval_loss": 0.6860420107841492,
120
+ "eval_macro_f1": 0.37150773064085757,
121
+ "eval_runtime": 1.1219,
122
+ "eval_samples_per_second": 356.528,
123
+ "eval_steps_per_second": 3.565,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.7063,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.6795,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.6816,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.698,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.677,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6769,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6981,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6727,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.5775,
177
+ "eval_loss": 0.6859269738197327,
178
+ "eval_macro_f1": 0.37150773064085757,
179
+ "eval_runtime": 1.199,
180
+ "eval_samples_per_second": 333.604,
181
+ "eval_steps_per_second": 3.336,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.7026,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6807,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6795,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.7013,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6788,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6777,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6967,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6749,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.575,
235
+ "eval_loss": 0.6854825615882874,
236
+ "eval_macro_f1": 0.36507936507936506,
237
+ "eval_runtime": 1.1334,
238
+ "eval_samples_per_second": 352.933,
239
+ "eval_steps_per_second": 3.529,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.7027,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6667,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6906,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.7023,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6743,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.6708,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6992,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.685,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.575,
293
+ "eval_loss": 0.6849209666252136,
294
+ "eval_macro_f1": 0.36507936507936506,
295
+ "eval_runtime": 1.0714,
296
+ "eval_samples_per_second": 373.352,
297
+ "eval_steps_per_second": 3.734,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.6917,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.684,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6846,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6967,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.673,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6808,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6873,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6798,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.575,
351
+ "eval_loss": 0.6847447156906128,
352
+ "eval_macro_f1": 0.36507936507936506,
353
+ "eval_runtime": 1.2096,
354
+ "eval_samples_per_second": 330.697,
355
+ "eval_steps_per_second": 3.307,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.6922,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6879,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6686,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.7015,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6721,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6711,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.7008,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.6833,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.575,
409
+ "eval_loss": 0.6845291256904602,
410
+ "eval_macro_f1": 0.36507936507936506,
411
+ "eval_runtime": 1.0732,
412
+ "eval_samples_per_second": 372.73,
413
+ "eval_steps_per_second": 3.727,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.7052,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.6767,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.6733,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.7014,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6805,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.6752,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.6834,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6714,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.5775,
467
+ "eval_loss": 0.6844103932380676,
468
+ "eval_macro_f1": 0.37150773064085757,
469
+ "eval_runtime": 1.1163,
470
+ "eval_samples_per_second": 358.34,
471
+ "eval_steps_per_second": 3.583,
472
+ "step": 128
473
+ },
474
+ {
475
+ "epoch": 8.12,
476
+ "learning_rate": 1.0833333333333334e-05,
477
+ "loss": 0.682,
478
+ "step": 130
479
+ },
480
+ {
481
+ "epoch": 8.25,
482
+ "learning_rate": 1.1000000000000001e-05,
483
+ "loss": 0.6834,
484
+ "step": 132
485
+ },
486
+ {
487
+ "epoch": 8.38,
488
+ "learning_rate": 1.1166666666666668e-05,
489
+ "loss": 0.6834,
490
+ "step": 134
491
+ },
492
+ {
493
+ "epoch": 8.5,
494
+ "learning_rate": 1.1333333333333334e-05,
495
+ "loss": 0.7047,
496
+ "step": 136
497
+ },
498
+ {
499
+ "epoch": 8.62,
500
+ "learning_rate": 1.1500000000000002e-05,
501
+ "loss": 0.6771,
502
+ "step": 138
503
+ },
504
+ {
505
+ "epoch": 8.75,
506
+ "learning_rate": 1.1666666666666668e-05,
507
+ "loss": 0.6801,
508
+ "step": 140
509
+ },
510
+ {
511
+ "epoch": 8.88,
512
+ "learning_rate": 1.1833333333333334e-05,
513
+ "loss": 0.6895,
514
+ "step": 142
515
+ },
516
+ {
517
+ "epoch": 9.0,
518
+ "learning_rate": 1.2e-05,
519
+ "loss": 0.65,
520
+ "step": 144
521
+ },
522
+ {
523
+ "epoch": 9.0,
524
+ "eval_accuracy": 0.575,
525
+ "eval_loss": 0.6835783123970032,
526
+ "eval_macro_f1": 0.36507936507936506,
527
+ "eval_runtime": 1.1415,
528
+ "eval_samples_per_second": 350.408,
529
+ "eval_steps_per_second": 3.504,
530
+ "step": 144
531
+ },
532
+ {
533
+ "epoch": 9.12,
534
+ "learning_rate": 1.2166666666666668e-05,
535
+ "loss": 0.6848,
536
+ "step": 146
537
+ },
538
+ {
539
+ "epoch": 9.25,
540
+ "learning_rate": 1.2333333333333334e-05,
541
+ "loss": 0.6753,
542
+ "step": 148
543
+ },
544
+ {
545
+ "epoch": 9.38,
546
+ "learning_rate": 1.25e-05,
547
+ "loss": 0.6681,
548
+ "step": 150
549
+ },
550
+ {
551
+ "epoch": 9.5,
552
+ "learning_rate": 1.2666666666666668e-05,
553
+ "loss": 0.7129,
554
+ "step": 152
555
+ },
556
+ {
557
+ "epoch": 9.62,
558
+ "learning_rate": 1.2833333333333333e-05,
559
+ "loss": 0.6681,
560
+ "step": 154
561
+ },
562
+ {
563
+ "epoch": 9.75,
564
+ "learning_rate": 1.3000000000000001e-05,
565
+ "loss": 0.6715,
566
+ "step": 156
567
+ },
568
+ {
569
+ "epoch": 9.88,
570
+ "learning_rate": 1.3166666666666665e-05,
571
+ "loss": 0.7159,
572
+ "step": 158
573
+ },
574
+ {
575
+ "epoch": 10.0,
576
+ "learning_rate": 1.3333333333333333e-05,
577
+ "loss": 0.6494,
578
+ "step": 160
579
+ },
580
+ {
581
+ "epoch": 10.0,
582
+ "eval_accuracy": 0.575,
583
+ "eval_loss": 0.6823403835296631,
584
+ "eval_macro_f1": 0.36507936507936506,
585
+ "eval_runtime": 1.2482,
586
+ "eval_samples_per_second": 320.459,
587
+ "eval_steps_per_second": 3.205,
588
+ "step": 160
589
+ },
590
+ {
591
+ "epoch": 10.12,
592
+ "learning_rate": 1.3500000000000001e-05,
593
+ "loss": 0.6997,
594
+ "step": 162
595
+ },
596
+ {
597
+ "epoch": 10.25,
598
+ "learning_rate": 1.3666666666666666e-05,
599
+ "loss": 0.6782,
600
+ "step": 164
601
+ },
602
+ {
603
+ "epoch": 10.38,
604
+ "learning_rate": 1.3833333333333334e-05,
605
+ "loss": 0.6738,
606
+ "step": 166
607
+ },
608
+ {
609
+ "epoch": 10.5,
610
+ "learning_rate": 1.4000000000000001e-05,
611
+ "loss": 0.6772,
612
+ "step": 168
613
+ },
614
+ {
615
+ "epoch": 10.62,
616
+ "learning_rate": 1.4166666666666668e-05,
617
+ "loss": 0.6782,
618
+ "step": 170
619
+ },
620
+ {
621
+ "epoch": 10.75,
622
+ "learning_rate": 1.4333333333333334e-05,
623
+ "loss": 0.6663,
624
+ "step": 172
625
+ },
626
+ {
627
+ "epoch": 10.88,
628
+ "learning_rate": 1.45e-05,
629
+ "loss": 0.7095,
630
+ "step": 174
631
+ },
632
+ {
633
+ "epoch": 11.0,
634
+ "learning_rate": 1.4666666666666668e-05,
635
+ "loss": 0.6549,
636
+ "step": 176
637
+ },
638
+ {
639
+ "epoch": 11.0,
640
+ "eval_accuracy": 0.575,
641
+ "eval_loss": 0.6820950508117676,
642
+ "eval_macro_f1": 0.36507936507936506,
643
+ "eval_runtime": 1.1022,
644
+ "eval_samples_per_second": 362.906,
645
+ "eval_steps_per_second": 3.629,
646
+ "step": 176
647
+ },
648
+ {
649
+ "epoch": 11.12,
650
+ "learning_rate": 1.4833333333333336e-05,
651
+ "loss": 0.6936,
652
+ "step": 178
653
+ },
654
+ {
655
+ "epoch": 11.25,
656
+ "learning_rate": 1.5e-05,
657
+ "loss": 0.6768,
658
+ "step": 180
659
+ },
660
+ {
661
+ "epoch": 11.38,
662
+ "learning_rate": 1.5166666666666668e-05,
663
+ "loss": 0.6692,
664
+ "step": 182
665
+ },
666
+ {
667
+ "epoch": 11.5,
668
+ "learning_rate": 1.5333333333333334e-05,
669
+ "loss": 0.6876,
670
+ "step": 184
671
+ },
672
+ {
673
+ "epoch": 11.62,
674
+ "learning_rate": 1.55e-05,
675
+ "loss": 0.6642,
676
+ "step": 186
677
+ },
678
+ {
679
+ "epoch": 11.75,
680
+ "learning_rate": 1.5666666666666667e-05,
681
+ "loss": 0.6752,
682
+ "step": 188
683
+ },
684
+ {
685
+ "epoch": 11.88,
686
+ "learning_rate": 1.5833333333333333e-05,
687
+ "loss": 0.6933,
688
+ "step": 190
689
+ },
690
+ {
691
+ "epoch": 12.0,
692
+ "learning_rate": 1.6000000000000003e-05,
693
+ "loss": 0.6803,
694
+ "step": 192
695
+ },
696
+ {
697
+ "epoch": 12.0,
698
+ "eval_accuracy": 0.5775,
699
+ "eval_loss": 0.682160496711731,
700
+ "eval_macro_f1": 0.37150773064085757,
701
+ "eval_runtime": 1.0867,
702
+ "eval_samples_per_second": 368.078,
703
+ "eval_steps_per_second": 3.681,
704
+ "step": 192
705
+ },
706
+ {
707
+ "epoch": 12.12,
708
+ "learning_rate": 1.6166666666666665e-05,
709
+ "loss": 0.7001,
710
+ "step": 194
711
+ },
712
+ {
713
+ "epoch": 12.25,
714
+ "learning_rate": 1.6333333333333335e-05,
715
+ "loss": 0.6741,
716
+ "step": 196
717
+ },
718
+ {
719
+ "epoch": 12.38,
720
+ "learning_rate": 1.65e-05,
721
+ "loss": 0.6719,
722
+ "step": 198
723
+ },
724
+ {
725
+ "epoch": 12.5,
726
+ "learning_rate": 1.6666666666666667e-05,
727
+ "loss": 0.6893,
728
+ "step": 200
729
+ },
730
+ {
731
+ "epoch": 12.62,
732
+ "learning_rate": 1.6833333333333334e-05,
733
+ "loss": 0.6698,
734
+ "step": 202
735
+ },
736
+ {
737
+ "epoch": 12.75,
738
+ "learning_rate": 1.7000000000000003e-05,
739
+ "loss": 0.6743,
740
+ "step": 204
741
+ },
742
+ {
743
+ "epoch": 12.88,
744
+ "learning_rate": 1.7166666666666666e-05,
745
+ "loss": 0.6883,
746
+ "step": 206
747
+ },
748
+ {
749
+ "epoch": 13.0,
750
+ "learning_rate": 1.7333333333333336e-05,
751
+ "loss": 0.6503,
752
+ "step": 208
753
+ },
754
+ {
755
+ "epoch": 13.0,
756
+ "eval_accuracy": 0.58,
757
+ "eval_loss": 0.6827612519264221,
758
+ "eval_macro_f1": 0.3830560757959678,
759
+ "eval_runtime": 1.1101,
760
+ "eval_samples_per_second": 360.318,
761
+ "eval_steps_per_second": 3.603,
762
+ "step": 208
763
+ }
764
+ ],
765
+ "max_steps": 320,
766
+ "num_train_epochs": 20,
767
+ "total_flos": 555968928153600.0,
768
+ "trial_name": null,
769
+ "trial_params": null
770
+ }
scaling_performance/2000/L4/fold0/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold0/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.575,
3
+ "test_loss": 0.6820950508117676,
4
+ "test_macro_f1": 0.36507936507936506,
5
+ "test_runtime": 1.1206,
6
+ "test_samples_per_second": 356.963,
7
+ "test_steps_per_second": 3.57
8
+ }
scaling_performance/2000/L4/fold1/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.6025,
3
+ "test_loss": 0.6501033902168274,
4
+ "test_macro_f1": 0.5765617613965472,
5
+ "test_runtime": 1.0691,
6
+ "test_samples_per_second": 374.158,
7
+ "test_steps_per_second": 3.742
8
+ }
scaling_performance/2000/L4/fold1/checkpoint-320/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold1/checkpoint-320/trainer_state.json ADDED
@@ -0,0 +1,1176 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6501033902168274,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers4_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold1/checkpoint-320",
4
+ "epoch": 20.0,
5
+ "global_step": 320,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6968,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.6823,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.6887,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6899,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.6783,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.6856,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6903,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6805,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.5925,
61
+ "eval_loss": 0.6838886737823486,
62
+ "eval_macro_f1": 0.4353951800760311,
63
+ "eval_runtime": 1.1995,
64
+ "eval_samples_per_second": 333.478,
65
+ "eval_steps_per_second": 3.335,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.696,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.6879,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.6825,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.6948,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.6753,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.6828,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6947,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.6785,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.5925,
119
+ "eval_loss": 0.6835730075836182,
120
+ "eval_macro_f1": 0.4312184313143914,
121
+ "eval_runtime": 1.1121,
122
+ "eval_samples_per_second": 359.692,
123
+ "eval_steps_per_second": 3.597,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.6944,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.6794,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.6868,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6993,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.6775,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6831,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6893,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6733,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.5725,
177
+ "eval_loss": 0.6828555464744568,
178
+ "eval_macro_f1": 0.37970998721331994,
179
+ "eval_runtime": 1.0735,
180
+ "eval_samples_per_second": 372.607,
181
+ "eval_steps_per_second": 3.726,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6887,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6732,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6738,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.7063,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6928,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6805,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6933,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6643,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.5675,
235
+ "eval_loss": 0.6821349859237671,
236
+ "eval_macro_f1": 0.3673142857142857,
237
+ "eval_runtime": 1.2162,
238
+ "eval_samples_per_second": 328.882,
239
+ "eval_steps_per_second": 3.289,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.6995,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6752,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6691,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.6907,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6876,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.668,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.7008,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6813,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.5675,
293
+ "eval_loss": 0.6816044449806213,
294
+ "eval_macro_f1": 0.3673142857142857,
295
+ "eval_runtime": 1.1264,
296
+ "eval_samples_per_second": 355.105,
297
+ "eval_steps_per_second": 3.551,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.7075,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.6692,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6761,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.7005,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.6846,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6708,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6929,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6608,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.5675,
351
+ "eval_loss": 0.6814809441566467,
352
+ "eval_macro_f1": 0.3673142857142857,
353
+ "eval_runtime": 1.0689,
354
+ "eval_samples_per_second": 374.209,
355
+ "eval_steps_per_second": 3.742,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.6881,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6718,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6604,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.7045,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6827,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6657,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.705,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.6781,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.565,
409
+ "eval_loss": 0.681130051612854,
410
+ "eval_macro_f1": 0.3610223642172524,
411
+ "eval_runtime": 1.125,
412
+ "eval_samples_per_second": 355.558,
413
+ "eval_steps_per_second": 3.556,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.6963,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.6823,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.6817,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.7042,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6723,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.6753,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.6875,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6456,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.5675,
467
+ "eval_loss": 0.681651771068573,
468
+ "eval_macro_f1": 0.3673142857142857,
469
+ "eval_runtime": 1.0931,
470
+ "eval_samples_per_second": 365.947,
471
+ "eval_steps_per_second": 3.659,
472
+ "step": 128
473
+ },
474
+ {
475
+ "epoch": 8.12,
476
+ "learning_rate": 1.0833333333333334e-05,
477
+ "loss": 0.6914,
478
+ "step": 130
479
+ },
480
+ {
481
+ "epoch": 8.25,
482
+ "learning_rate": 1.1000000000000001e-05,
483
+ "loss": 0.673,
484
+ "step": 132
485
+ },
486
+ {
487
+ "epoch": 8.38,
488
+ "learning_rate": 1.1166666666666668e-05,
489
+ "loss": 0.675,
490
+ "step": 134
491
+ },
492
+ {
493
+ "epoch": 8.5,
494
+ "learning_rate": 1.1333333333333334e-05,
495
+ "loss": 0.6956,
496
+ "step": 136
497
+ },
498
+ {
499
+ "epoch": 8.62,
500
+ "learning_rate": 1.1500000000000002e-05,
501
+ "loss": 0.6771,
502
+ "step": 138
503
+ },
504
+ {
505
+ "epoch": 8.75,
506
+ "learning_rate": 1.1666666666666668e-05,
507
+ "loss": 0.6728,
508
+ "step": 140
509
+ },
510
+ {
511
+ "epoch": 8.88,
512
+ "learning_rate": 1.1833333333333334e-05,
513
+ "loss": 0.6846,
514
+ "step": 142
515
+ },
516
+ {
517
+ "epoch": 9.0,
518
+ "learning_rate": 1.2e-05,
519
+ "loss": 0.6766,
520
+ "step": 144
521
+ },
522
+ {
523
+ "epoch": 9.0,
524
+ "eval_accuracy": 0.5675,
525
+ "eval_loss": 0.6811038851737976,
526
+ "eval_macro_f1": 0.3673142857142857,
527
+ "eval_runtime": 1.1076,
528
+ "eval_samples_per_second": 361.146,
529
+ "eval_steps_per_second": 3.611,
530
+ "step": 144
531
+ },
532
+ {
533
+ "epoch": 9.12,
534
+ "learning_rate": 1.2166666666666668e-05,
535
+ "loss": 0.6936,
536
+ "step": 146
537
+ },
538
+ {
539
+ "epoch": 9.25,
540
+ "learning_rate": 1.2333333333333334e-05,
541
+ "loss": 0.6697,
542
+ "step": 148
543
+ },
544
+ {
545
+ "epoch": 9.38,
546
+ "learning_rate": 1.25e-05,
547
+ "loss": 0.6804,
548
+ "step": 150
549
+ },
550
+ {
551
+ "epoch": 9.5,
552
+ "learning_rate": 1.2666666666666668e-05,
553
+ "loss": 0.6915,
554
+ "step": 152
555
+ },
556
+ {
557
+ "epoch": 9.62,
558
+ "learning_rate": 1.2833333333333333e-05,
559
+ "loss": 0.6697,
560
+ "step": 154
561
+ },
562
+ {
563
+ "epoch": 9.75,
564
+ "learning_rate": 1.3000000000000001e-05,
565
+ "loss": 0.6739,
566
+ "step": 156
567
+ },
568
+ {
569
+ "epoch": 9.88,
570
+ "learning_rate": 1.3166666666666665e-05,
571
+ "loss": 0.6938,
572
+ "step": 158
573
+ },
574
+ {
575
+ "epoch": 10.0,
576
+ "learning_rate": 1.3333333333333333e-05,
577
+ "loss": 0.6678,
578
+ "step": 160
579
+ },
580
+ {
581
+ "epoch": 10.0,
582
+ "eval_accuracy": 0.5675,
583
+ "eval_loss": 0.6808483600616455,
584
+ "eval_macro_f1": 0.3673142857142857,
585
+ "eval_runtime": 1.0842,
586
+ "eval_samples_per_second": 368.92,
587
+ "eval_steps_per_second": 3.689,
588
+ "step": 160
589
+ },
590
+ {
591
+ "epoch": 10.12,
592
+ "learning_rate": 1.3500000000000001e-05,
593
+ "loss": 0.6873,
594
+ "step": 162
595
+ },
596
+ {
597
+ "epoch": 10.25,
598
+ "learning_rate": 1.3666666666666666e-05,
599
+ "loss": 0.6714,
600
+ "step": 164
601
+ },
602
+ {
603
+ "epoch": 10.38,
604
+ "learning_rate": 1.3833333333333334e-05,
605
+ "loss": 0.6646,
606
+ "step": 166
607
+ },
608
+ {
609
+ "epoch": 10.5,
610
+ "learning_rate": 1.4000000000000001e-05,
611
+ "loss": 0.6975,
612
+ "step": 168
613
+ },
614
+ {
615
+ "epoch": 10.62,
616
+ "learning_rate": 1.4166666666666668e-05,
617
+ "loss": 0.6645,
618
+ "step": 170
619
+ },
620
+ {
621
+ "epoch": 10.75,
622
+ "learning_rate": 1.4333333333333334e-05,
623
+ "loss": 0.6868,
624
+ "step": 172
625
+ },
626
+ {
627
+ "epoch": 10.88,
628
+ "learning_rate": 1.45e-05,
629
+ "loss": 0.6971,
630
+ "step": 174
631
+ },
632
+ {
633
+ "epoch": 11.0,
634
+ "learning_rate": 1.4666666666666668e-05,
635
+ "loss": 0.6485,
636
+ "step": 176
637
+ },
638
+ {
639
+ "epoch": 11.0,
640
+ "eval_accuracy": 0.5675,
641
+ "eval_loss": 0.6800907850265503,
642
+ "eval_macro_f1": 0.3673142857142857,
643
+ "eval_runtime": 1.0751,
644
+ "eval_samples_per_second": 372.049,
645
+ "eval_steps_per_second": 3.72,
646
+ "step": 176
647
+ },
648
+ {
649
+ "epoch": 11.12,
650
+ "learning_rate": 1.4833333333333336e-05,
651
+ "loss": 0.7018,
652
+ "step": 178
653
+ },
654
+ {
655
+ "epoch": 11.25,
656
+ "learning_rate": 1.5e-05,
657
+ "loss": 0.6526,
658
+ "step": 180
659
+ },
660
+ {
661
+ "epoch": 11.38,
662
+ "learning_rate": 1.5166666666666668e-05,
663
+ "loss": 0.6648,
664
+ "step": 182
665
+ },
666
+ {
667
+ "epoch": 11.5,
668
+ "learning_rate": 1.5333333333333334e-05,
669
+ "loss": 0.6932,
670
+ "step": 184
671
+ },
672
+ {
673
+ "epoch": 11.62,
674
+ "learning_rate": 1.55e-05,
675
+ "loss": 0.6572,
676
+ "step": 186
677
+ },
678
+ {
679
+ "epoch": 11.75,
680
+ "learning_rate": 1.5666666666666667e-05,
681
+ "loss": 0.6796,
682
+ "step": 188
683
+ },
684
+ {
685
+ "epoch": 11.88,
686
+ "learning_rate": 1.5833333333333333e-05,
687
+ "loss": 0.7018,
688
+ "step": 190
689
+ },
690
+ {
691
+ "epoch": 12.0,
692
+ "learning_rate": 1.6000000000000003e-05,
693
+ "loss": 0.6509,
694
+ "step": 192
695
+ },
696
+ {
697
+ "epoch": 12.0,
698
+ "eval_accuracy": 0.5675,
699
+ "eval_loss": 0.6796495318412781,
700
+ "eval_macro_f1": 0.3673142857142857,
701
+ "eval_runtime": 1.1087,
702
+ "eval_samples_per_second": 360.786,
703
+ "eval_steps_per_second": 3.608,
704
+ "step": 192
705
+ },
706
+ {
707
+ "epoch": 12.12,
708
+ "learning_rate": 1.6166666666666665e-05,
709
+ "loss": 0.6939,
710
+ "step": 194
711
+ },
712
+ {
713
+ "epoch": 12.25,
714
+ "learning_rate": 1.6333333333333335e-05,
715
+ "loss": 0.6679,
716
+ "step": 196
717
+ },
718
+ {
719
+ "epoch": 12.38,
720
+ "learning_rate": 1.65e-05,
721
+ "loss": 0.6673,
722
+ "step": 198
723
+ },
724
+ {
725
+ "epoch": 12.5,
726
+ "learning_rate": 1.6666666666666667e-05,
727
+ "loss": 0.7003,
728
+ "step": 200
729
+ },
730
+ {
731
+ "epoch": 12.62,
732
+ "learning_rate": 1.6833333333333334e-05,
733
+ "loss": 0.6588,
734
+ "step": 202
735
+ },
736
+ {
737
+ "epoch": 12.75,
738
+ "learning_rate": 1.7000000000000003e-05,
739
+ "loss": 0.6595,
740
+ "step": 204
741
+ },
742
+ {
743
+ "epoch": 12.88,
744
+ "learning_rate": 1.7166666666666666e-05,
745
+ "loss": 0.6808,
746
+ "step": 206
747
+ },
748
+ {
749
+ "epoch": 13.0,
750
+ "learning_rate": 1.7333333333333336e-05,
751
+ "loss": 0.6625,
752
+ "step": 208
753
+ },
754
+ {
755
+ "epoch": 13.0,
756
+ "eval_accuracy": 0.57,
757
+ "eval_loss": 0.6790809631347656,
758
+ "eval_macro_f1": 0.3735431235431235,
759
+ "eval_runtime": 1.07,
760
+ "eval_samples_per_second": 373.831,
761
+ "eval_steps_per_second": 3.738,
762
+ "step": 208
763
+ },
764
+ {
765
+ "epoch": 13.12,
766
+ "learning_rate": 1.75e-05,
767
+ "loss": 0.6897,
768
+ "step": 210
769
+ },
770
+ {
771
+ "epoch": 13.25,
772
+ "learning_rate": 1.7666666666666668e-05,
773
+ "loss": 0.6605,
774
+ "step": 212
775
+ },
776
+ {
777
+ "epoch": 13.38,
778
+ "learning_rate": 1.7833333333333334e-05,
779
+ "loss": 0.6618,
780
+ "step": 214
781
+ },
782
+ {
783
+ "epoch": 13.5,
784
+ "learning_rate": 1.8e-05,
785
+ "loss": 0.6938,
786
+ "step": 216
787
+ },
788
+ {
789
+ "epoch": 13.62,
790
+ "learning_rate": 1.8166666666666667e-05,
791
+ "loss": 0.6514,
792
+ "step": 218
793
+ },
794
+ {
795
+ "epoch": 13.75,
796
+ "learning_rate": 1.8333333333333333e-05,
797
+ "loss": 0.6627,
798
+ "step": 220
799
+ },
800
+ {
801
+ "epoch": 13.88,
802
+ "learning_rate": 1.85e-05,
803
+ "loss": 0.6814,
804
+ "step": 222
805
+ },
806
+ {
807
+ "epoch": 14.0,
808
+ "learning_rate": 1.866666666666667e-05,
809
+ "loss": 0.6725,
810
+ "step": 224
811
+ },
812
+ {
813
+ "epoch": 14.0,
814
+ "eval_accuracy": 0.57,
815
+ "eval_loss": 0.6779997944831848,
816
+ "eval_macro_f1": 0.3735431235431235,
817
+ "eval_runtime": 1.09,
818
+ "eval_samples_per_second": 366.986,
819
+ "eval_steps_per_second": 3.67,
820
+ "step": 224
821
+ },
822
+ {
823
+ "epoch": 14.12,
824
+ "learning_rate": 1.8833333333333335e-05,
825
+ "loss": 0.6773,
826
+ "step": 226
827
+ },
828
+ {
829
+ "epoch": 14.25,
830
+ "learning_rate": 1.9e-05,
831
+ "loss": 0.6551,
832
+ "step": 228
833
+ },
834
+ {
835
+ "epoch": 14.38,
836
+ "learning_rate": 1.9166666666666667e-05,
837
+ "loss": 0.645,
838
+ "step": 230
839
+ },
840
+ {
841
+ "epoch": 14.5,
842
+ "learning_rate": 1.9333333333333333e-05,
843
+ "loss": 0.6858,
844
+ "step": 232
845
+ },
846
+ {
847
+ "epoch": 14.62,
848
+ "learning_rate": 1.9500000000000003e-05,
849
+ "loss": 0.6615,
850
+ "step": 234
851
+ },
852
+ {
853
+ "epoch": 14.75,
854
+ "learning_rate": 1.9666666666666666e-05,
855
+ "loss": 0.6648,
856
+ "step": 236
857
+ },
858
+ {
859
+ "epoch": 14.88,
860
+ "learning_rate": 1.9833333333333335e-05,
861
+ "loss": 0.6945,
862
+ "step": 238
863
+ },
864
+ {
865
+ "epoch": 15.0,
866
+ "learning_rate": 2e-05,
867
+ "loss": 0.664,
868
+ "step": 240
869
+ },
870
+ {
871
+ "epoch": 15.0,
872
+ "eval_accuracy": 0.5725,
873
+ "eval_loss": 0.676581621170044,
874
+ "eval_macro_f1": 0.37970998721331994,
875
+ "eval_runtime": 1.1251,
876
+ "eval_samples_per_second": 355.515,
877
+ "eval_steps_per_second": 3.555,
878
+ "step": 240
879
+ },
880
+ {
881
+ "epoch": 15.12,
882
+ "learning_rate": 2.0166666666666668e-05,
883
+ "loss": 0.6893,
884
+ "step": 242
885
+ },
886
+ {
887
+ "epoch": 15.25,
888
+ "learning_rate": 2.0333333333333334e-05,
889
+ "loss": 0.6482,
890
+ "step": 244
891
+ },
892
+ {
893
+ "epoch": 15.38,
894
+ "learning_rate": 2.05e-05,
895
+ "loss": 0.6561,
896
+ "step": 246
897
+ },
898
+ {
899
+ "epoch": 15.5,
900
+ "learning_rate": 2.0666666666666666e-05,
901
+ "loss": 0.676,
902
+ "step": 248
903
+ },
904
+ {
905
+ "epoch": 15.62,
906
+ "learning_rate": 2.0833333333333336e-05,
907
+ "loss": 0.6469,
908
+ "step": 250
909
+ },
910
+ {
911
+ "epoch": 15.75,
912
+ "learning_rate": 2.1e-05,
913
+ "loss": 0.6502,
914
+ "step": 252
915
+ },
916
+ {
917
+ "epoch": 15.88,
918
+ "learning_rate": 2.116666666666667e-05,
919
+ "loss": 0.69,
920
+ "step": 254
921
+ },
922
+ {
923
+ "epoch": 16.0,
924
+ "learning_rate": 2.1333333333333335e-05,
925
+ "loss": 0.6424,
926
+ "step": 256
927
+ },
928
+ {
929
+ "epoch": 16.0,
930
+ "eval_accuracy": 0.5625,
931
+ "eval_loss": 0.67472243309021,
932
+ "eval_macro_f1": 0.38004268848916406,
933
+ "eval_runtime": 1.087,
934
+ "eval_samples_per_second": 367.976,
935
+ "eval_steps_per_second": 3.68,
936
+ "step": 256
937
+ },
938
+ {
939
+ "epoch": 16.12,
940
+ "learning_rate": 2.15e-05,
941
+ "loss": 0.674,
942
+ "step": 258
943
+ },
944
+ {
945
+ "epoch": 16.25,
946
+ "learning_rate": 2.1666666666666667e-05,
947
+ "loss": 0.6524,
948
+ "step": 260
949
+ },
950
+ {
951
+ "epoch": 16.38,
952
+ "learning_rate": 2.1833333333333333e-05,
953
+ "loss": 0.6601,
954
+ "step": 262
955
+ },
956
+ {
957
+ "epoch": 16.5,
958
+ "learning_rate": 2.2000000000000003e-05,
959
+ "loss": 0.6738,
960
+ "step": 264
961
+ },
962
+ {
963
+ "epoch": 16.62,
964
+ "learning_rate": 2.216666666666667e-05,
965
+ "loss": 0.6426,
966
+ "step": 266
967
+ },
968
+ {
969
+ "epoch": 16.75,
970
+ "learning_rate": 2.2333333333333335e-05,
971
+ "loss": 0.6442,
972
+ "step": 268
973
+ },
974
+ {
975
+ "epoch": 16.88,
976
+ "learning_rate": 2.25e-05,
977
+ "loss": 0.6747,
978
+ "step": 270
979
+ },
980
+ {
981
+ "epoch": 17.0,
982
+ "learning_rate": 2.2666666666666668e-05,
983
+ "loss": 0.6318,
984
+ "step": 272
985
+ },
986
+ {
987
+ "epoch": 17.0,
988
+ "eval_accuracy": 0.5925,
989
+ "eval_loss": 0.6718035936355591,
990
+ "eval_macro_f1": 0.49046178854164224,
991
+ "eval_runtime": 1.0788,
992
+ "eval_samples_per_second": 370.789,
993
+ "eval_steps_per_second": 3.708,
994
+ "step": 272
995
+ },
996
+ {
997
+ "epoch": 17.12,
998
+ "learning_rate": 2.2833333333333334e-05,
999
+ "loss": 0.6695,
1000
+ "step": 274
1001
+ },
1002
+ {
1003
+ "epoch": 17.25,
1004
+ "learning_rate": 2.3000000000000003e-05,
1005
+ "loss": 0.6515,
1006
+ "step": 276
1007
+ },
1008
+ {
1009
+ "epoch": 17.38,
1010
+ "learning_rate": 2.3166666666666666e-05,
1011
+ "loss": 0.6501,
1012
+ "step": 278
1013
+ },
1014
+ {
1015
+ "epoch": 17.5,
1016
+ "learning_rate": 2.3333333333333336e-05,
1017
+ "loss": 0.6595,
1018
+ "step": 280
1019
+ },
1020
+ {
1021
+ "epoch": 17.62,
1022
+ "learning_rate": 2.35e-05,
1023
+ "loss": 0.6255,
1024
+ "step": 282
1025
+ },
1026
+ {
1027
+ "epoch": 17.75,
1028
+ "learning_rate": 2.3666666666666668e-05,
1029
+ "loss": 0.6335,
1030
+ "step": 284
1031
+ },
1032
+ {
1033
+ "epoch": 17.88,
1034
+ "learning_rate": 2.3833333333333334e-05,
1035
+ "loss": 0.6627,
1036
+ "step": 286
1037
+ },
1038
+ {
1039
+ "epoch": 18.0,
1040
+ "learning_rate": 2.4e-05,
1041
+ "loss": 0.629,
1042
+ "step": 288
1043
+ },
1044
+ {
1045
+ "epoch": 18.0,
1046
+ "eval_accuracy": 0.6025,
1047
+ "eval_loss": 0.6667739152908325,
1048
+ "eval_macro_f1": 0.516125350923242,
1049
+ "eval_runtime": 1.1647,
1050
+ "eval_samples_per_second": 343.422,
1051
+ "eval_steps_per_second": 3.434,
1052
+ "step": 288
1053
+ },
1054
+ {
1055
+ "epoch": 18.12,
1056
+ "learning_rate": 2.4166666666666667e-05,
1057
+ "loss": 0.6506,
1058
+ "step": 290
1059
+ },
1060
+ {
1061
+ "epoch": 18.25,
1062
+ "learning_rate": 2.4333333333333336e-05,
1063
+ "loss": 0.631,
1064
+ "step": 292
1065
+ },
1066
+ {
1067
+ "epoch": 18.38,
1068
+ "learning_rate": 2.45e-05,
1069
+ "loss": 0.6132,
1070
+ "step": 294
1071
+ },
1072
+ {
1073
+ "epoch": 18.5,
1074
+ "learning_rate": 2.466666666666667e-05,
1075
+ "loss": 0.6558,
1076
+ "step": 296
1077
+ },
1078
+ {
1079
+ "epoch": 18.62,
1080
+ "learning_rate": 2.4833333333333335e-05,
1081
+ "loss": 0.6165,
1082
+ "step": 298
1083
+ },
1084
+ {
1085
+ "epoch": 18.75,
1086
+ "learning_rate": 2.5e-05,
1087
+ "loss": 0.6268,
1088
+ "step": 300
1089
+ },
1090
+ {
1091
+ "epoch": 18.88,
1092
+ "learning_rate": 2.5166666666666667e-05,
1093
+ "loss": 0.6561,
1094
+ "step": 302
1095
+ },
1096
+ {
1097
+ "epoch": 19.0,
1098
+ "learning_rate": 2.5333333333333337e-05,
1099
+ "loss": 0.6098,
1100
+ "step": 304
1101
+ },
1102
+ {
1103
+ "epoch": 19.0,
1104
+ "eval_accuracy": 0.61,
1105
+ "eval_loss": 0.6590699553489685,
1106
+ "eval_macro_f1": 0.568536342515765,
1107
+ "eval_runtime": 1.1087,
1108
+ "eval_samples_per_second": 360.779,
1109
+ "eval_steps_per_second": 3.608,
1110
+ "step": 304
1111
+ },
1112
+ {
1113
+ "epoch": 19.12,
1114
+ "learning_rate": 2.5500000000000003e-05,
1115
+ "loss": 0.6329,
1116
+ "step": 306
1117
+ },
1118
+ {
1119
+ "epoch": 19.25,
1120
+ "learning_rate": 2.5666666666666666e-05,
1121
+ "loss": 0.5953,
1122
+ "step": 308
1123
+ },
1124
+ {
1125
+ "epoch": 19.38,
1126
+ "learning_rate": 2.5833333333333336e-05,
1127
+ "loss": 0.5907,
1128
+ "step": 310
1129
+ },
1130
+ {
1131
+ "epoch": 19.5,
1132
+ "learning_rate": 2.6000000000000002e-05,
1133
+ "loss": 0.6452,
1134
+ "step": 312
1135
+ },
1136
+ {
1137
+ "epoch": 19.62,
1138
+ "learning_rate": 2.6166666666666668e-05,
1139
+ "loss": 0.5927,
1140
+ "step": 314
1141
+ },
1142
+ {
1143
+ "epoch": 19.75,
1144
+ "learning_rate": 2.633333333333333e-05,
1145
+ "loss": 0.6043,
1146
+ "step": 316
1147
+ },
1148
+ {
1149
+ "epoch": 19.88,
1150
+ "learning_rate": 2.6500000000000004e-05,
1151
+ "loss": 0.6168,
1152
+ "step": 318
1153
+ },
1154
+ {
1155
+ "epoch": 20.0,
1156
+ "learning_rate": 2.6666666666666667e-05,
1157
+ "loss": 0.6312,
1158
+ "step": 320
1159
+ },
1160
+ {
1161
+ "epoch": 20.0,
1162
+ "eval_accuracy": 0.6025,
1163
+ "eval_loss": 0.6501033902168274,
1164
+ "eval_macro_f1": 0.5765617613965472,
1165
+ "eval_runtime": 1.0695,
1166
+ "eval_samples_per_second": 374.002,
1167
+ "eval_steps_per_second": 3.74,
1168
+ "step": 320
1169
+ }
1170
+ ],
1171
+ "max_steps": 320,
1172
+ "num_train_epochs": 20,
1173
+ "total_flos": 855336812544000.0,
1174
+ "trial_name": null,
1175
+ "trial_params": null
1176
+ }
scaling_performance/2000/L4/fold1/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold1/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.6025,
3
+ "test_loss": 0.6501033902168274,
4
+ "test_macro_f1": 0.5765617613965472,
5
+ "test_runtime": 1.0691,
6
+ "test_samples_per_second": 374.158,
7
+ "test_steps_per_second": 3.742
8
+ }
scaling_performance/2000/L4/fold2/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5725,
3
+ "test_loss": 0.6870080828666687,
4
+ "test_macro_f1": 0.3746285714285715,
5
+ "test_runtime": 1.1028,
6
+ "test_samples_per_second": 362.72,
7
+ "test_steps_per_second": 3.627
8
+ }
scaling_performance/2000/L4/fold2/checkpoint-176/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold2/checkpoint-176/trainer_state.json ADDED
@@ -0,0 +1,654 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6870080828666687,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers4_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold2/checkpoint-144",
4
+ "epoch": 11.0,
5
+ "global_step": 176,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6894,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.6904,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.6886,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6976,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.6826,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.6875,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6929,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6785,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.5325,
61
+ "eval_loss": 0.6903218030929565,
62
+ "eval_macro_f1": 0.41212992871682425,
63
+ "eval_runtime": 1.1311,
64
+ "eval_samples_per_second": 353.644,
65
+ "eval_steps_per_second": 3.536,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.7031,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.6875,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.6885,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.6939,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.6791,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.6777,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6922,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.6888,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.5475,
119
+ "eval_loss": 0.6896157264709473,
120
+ "eval_macro_f1": 0.42094360598571556,
121
+ "eval_runtime": 1.1158,
122
+ "eval_samples_per_second": 358.473,
123
+ "eval_steps_per_second": 3.585,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.6953,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.6884,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.681,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6901,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.6818,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.6891,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.6946,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6736,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.565,
177
+ "eval_loss": 0.6884350776672363,
178
+ "eval_macro_f1": 0.4037828947368421,
179
+ "eval_runtime": 1.2491,
180
+ "eval_samples_per_second": 320.242,
181
+ "eval_steps_per_second": 3.202,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6931,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6844,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6748,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.6965,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6859,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6835,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6947,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6711,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.5675,
235
+ "eval_loss": 0.6877972483634949,
236
+ "eval_macro_f1": 0.3871279149064307,
237
+ "eval_runtime": 1.1515,
238
+ "eval_samples_per_second": 347.367,
239
+ "eval_steps_per_second": 3.474,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.6906,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6733,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6821,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.7026,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6734,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.6782,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6937,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6811,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.57,
293
+ "eval_loss": 0.6872588992118835,
294
+ "eval_macro_f1": 0.38351254480286734,
295
+ "eval_runtime": 1.2012,
296
+ "eval_samples_per_second": 333.012,
297
+ "eval_steps_per_second": 3.33,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.7024,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.677,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6837,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6908,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.6805,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6789,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6878,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6707,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.5675,
351
+ "eval_loss": 0.6876999735832214,
352
+ "eval_macro_f1": 0.39632385654840313,
353
+ "eval_runtime": 1.0921,
354
+ "eval_samples_per_second": 366.259,
355
+ "eval_steps_per_second": 3.663,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.6923,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6788,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6735,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.699,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6727,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.6805,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.6942,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.6672,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.5725,
409
+ "eval_loss": 0.6871394515037537,
410
+ "eval_macro_f1": 0.37970998721331994,
411
+ "eval_runtime": 1.0755,
412
+ "eval_samples_per_second": 371.911,
413
+ "eval_steps_per_second": 3.719,
414
+ "step": 112
415
+ },
416
+ {
417
+ "epoch": 7.12,
418
+ "learning_rate": 9.5e-06,
419
+ "loss": 0.6833,
420
+ "step": 114
421
+ },
422
+ {
423
+ "epoch": 7.25,
424
+ "learning_rate": 9.666666666666667e-06,
425
+ "loss": 0.684,
426
+ "step": 116
427
+ },
428
+ {
429
+ "epoch": 7.38,
430
+ "learning_rate": 9.833333333333333e-06,
431
+ "loss": 0.673,
432
+ "step": 118
433
+ },
434
+ {
435
+ "epoch": 7.5,
436
+ "learning_rate": 1e-05,
437
+ "loss": 0.7003,
438
+ "step": 120
439
+ },
440
+ {
441
+ "epoch": 7.62,
442
+ "learning_rate": 1.0166666666666667e-05,
443
+ "loss": 0.6652,
444
+ "step": 122
445
+ },
446
+ {
447
+ "epoch": 7.75,
448
+ "learning_rate": 1.0333333333333333e-05,
449
+ "loss": 0.6791,
450
+ "step": 124
451
+ },
452
+ {
453
+ "epoch": 7.88,
454
+ "learning_rate": 1.05e-05,
455
+ "loss": 0.6976,
456
+ "step": 126
457
+ },
458
+ {
459
+ "epoch": 8.0,
460
+ "learning_rate": 1.0666666666666667e-05,
461
+ "loss": 0.6704,
462
+ "step": 128
463
+ },
464
+ {
465
+ "epoch": 8.0,
466
+ "eval_accuracy": 0.5725,
467
+ "eval_loss": 0.687021791934967,
468
+ "eval_macro_f1": 0.3746285714285715,
469
+ "eval_runtime": 1.1916,
470
+ "eval_samples_per_second": 335.684,
471
+ "eval_steps_per_second": 3.357,
472
+ "step": 128
473
+ },
474
+ {
475
+ "epoch": 8.12,
476
+ "learning_rate": 1.0833333333333334e-05,
477
+ "loss": 0.6797,
478
+ "step": 130
479
+ },
480
+ {
481
+ "epoch": 8.25,
482
+ "learning_rate": 1.1000000000000001e-05,
483
+ "loss": 0.6764,
484
+ "step": 132
485
+ },
486
+ {
487
+ "epoch": 8.38,
488
+ "learning_rate": 1.1166666666666668e-05,
489
+ "loss": 0.6775,
490
+ "step": 134
491
+ },
492
+ {
493
+ "epoch": 8.5,
494
+ "learning_rate": 1.1333333333333334e-05,
495
+ "loss": 0.7075,
496
+ "step": 136
497
+ },
498
+ {
499
+ "epoch": 8.62,
500
+ "learning_rate": 1.1500000000000002e-05,
501
+ "loss": 0.6697,
502
+ "step": 138
503
+ },
504
+ {
505
+ "epoch": 8.75,
506
+ "learning_rate": 1.1666666666666668e-05,
507
+ "loss": 0.6655,
508
+ "step": 140
509
+ },
510
+ {
511
+ "epoch": 8.88,
512
+ "learning_rate": 1.1833333333333334e-05,
513
+ "loss": 0.7055,
514
+ "step": 142
515
+ },
516
+ {
517
+ "epoch": 9.0,
518
+ "learning_rate": 1.2e-05,
519
+ "loss": 0.6551,
520
+ "step": 144
521
+ },
522
+ {
523
+ "epoch": 9.0,
524
+ "eval_accuracy": 0.5725,
525
+ "eval_loss": 0.6870080828666687,
526
+ "eval_macro_f1": 0.3746285714285715,
527
+ "eval_runtime": 1.0662,
528
+ "eval_samples_per_second": 375.163,
529
+ "eval_steps_per_second": 3.752,
530
+ "step": 144
531
+ },
532
+ {
533
+ "epoch": 9.12,
534
+ "learning_rate": 1.2166666666666668e-05,
535
+ "loss": 0.6922,
536
+ "step": 146
537
+ },
538
+ {
539
+ "epoch": 9.25,
540
+ "learning_rate": 1.2333333333333334e-05,
541
+ "loss": 0.6673,
542
+ "step": 148
543
+ },
544
+ {
545
+ "epoch": 9.38,
546
+ "learning_rate": 1.25e-05,
547
+ "loss": 0.6716,
548
+ "step": 150
549
+ },
550
+ {
551
+ "epoch": 9.5,
552
+ "learning_rate": 1.2666666666666668e-05,
553
+ "loss": 0.6974,
554
+ "step": 152
555
+ },
556
+ {
557
+ "epoch": 9.62,
558
+ "learning_rate": 1.2833333333333333e-05,
559
+ "loss": 0.6653,
560
+ "step": 154
561
+ },
562
+ {
563
+ "epoch": 9.75,
564
+ "learning_rate": 1.3000000000000001e-05,
565
+ "loss": 0.6635,
566
+ "step": 156
567
+ },
568
+ {
569
+ "epoch": 9.88,
570
+ "learning_rate": 1.3166666666666665e-05,
571
+ "loss": 0.6943,
572
+ "step": 158
573
+ },
574
+ {
575
+ "epoch": 10.0,
576
+ "learning_rate": 1.3333333333333333e-05,
577
+ "loss": 0.6778,
578
+ "step": 160
579
+ },
580
+ {
581
+ "epoch": 10.0,
582
+ "eval_accuracy": 0.565,
583
+ "eval_loss": 0.6875166296958923,
584
+ "eval_macro_f1": 0.3994823123382226,
585
+ "eval_runtime": 1.1086,
586
+ "eval_samples_per_second": 360.799,
587
+ "eval_steps_per_second": 3.608,
588
+ "step": 160
589
+ },
590
+ {
591
+ "epoch": 10.12,
592
+ "learning_rate": 1.3500000000000001e-05,
593
+ "loss": 0.6836,
594
+ "step": 162
595
+ },
596
+ {
597
+ "epoch": 10.25,
598
+ "learning_rate": 1.3666666666666666e-05,
599
+ "loss": 0.6788,
600
+ "step": 164
601
+ },
602
+ {
603
+ "epoch": 10.38,
604
+ "learning_rate": 1.3833333333333334e-05,
605
+ "loss": 0.6747,
606
+ "step": 166
607
+ },
608
+ {
609
+ "epoch": 10.5,
610
+ "learning_rate": 1.4000000000000001e-05,
611
+ "loss": 0.6941,
612
+ "step": 168
613
+ },
614
+ {
615
+ "epoch": 10.62,
616
+ "learning_rate": 1.4166666666666668e-05,
617
+ "loss": 0.6735,
618
+ "step": 170
619
+ },
620
+ {
621
+ "epoch": 10.75,
622
+ "learning_rate": 1.4333333333333334e-05,
623
+ "loss": 0.6701,
624
+ "step": 172
625
+ },
626
+ {
627
+ "epoch": 10.88,
628
+ "learning_rate": 1.45e-05,
629
+ "loss": 0.6859,
630
+ "step": 174
631
+ },
632
+ {
633
+ "epoch": 11.0,
634
+ "learning_rate": 1.4666666666666668e-05,
635
+ "loss": 0.6503,
636
+ "step": 176
637
+ },
638
+ {
639
+ "epoch": 11.0,
640
+ "eval_accuracy": 0.5625,
641
+ "eval_loss": 0.6887872219085693,
642
+ "eval_macro_f1": 0.39820665583438647,
643
+ "eval_runtime": 1.0813,
644
+ "eval_samples_per_second": 369.917,
645
+ "eval_steps_per_second": 3.699,
646
+ "step": 176
647
+ }
648
+ ],
649
+ "max_steps": 320,
650
+ "num_train_epochs": 20,
651
+ "total_flos": 470435246899200.0,
652
+ "trial_name": null,
653
+ "trial_params": null
654
+ }
scaling_performance/2000/L4/fold2/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold2/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5725,
3
+ "test_loss": 0.6870080828666687,
4
+ "test_macro_f1": 0.3746285714285715,
5
+ "test_runtime": 1.1028,
6
+ "test_samples_per_second": 362.72,
7
+ "test_steps_per_second": 3.627
8
+ }
scaling_performance/2000/L4/fold3/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5425,
3
+ "test_loss": 0.6905966401100159,
4
+ "test_macro_f1": 0.35170178282009723,
5
+ "test_runtime": 1.0988,
6
+ "test_samples_per_second": 364.045,
7
+ "test_steps_per_second": 3.64
8
+ }
scaling_performance/2000/L4/fold3/checkpoint-112/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold3/checkpoint-112/trainer_state.json ADDED
@@ -0,0 +1,422 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.6905966401100159,
3
+ "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers4_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold3/checkpoint-80",
4
+ "epoch": 7.0,
5
+ "global_step": 112,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.12,
12
+ "learning_rate": 1.6666666666666668e-07,
13
+ "loss": 0.6967,
14
+ "step": 2
15
+ },
16
+ {
17
+ "epoch": 0.25,
18
+ "learning_rate": 3.3333333333333335e-07,
19
+ "loss": 0.7142,
20
+ "step": 4
21
+ },
22
+ {
23
+ "epoch": 0.38,
24
+ "learning_rate": 5.000000000000001e-07,
25
+ "loss": 0.7082,
26
+ "step": 6
27
+ },
28
+ {
29
+ "epoch": 0.5,
30
+ "learning_rate": 6.666666666666667e-07,
31
+ "loss": 0.6925,
32
+ "step": 8
33
+ },
34
+ {
35
+ "epoch": 0.62,
36
+ "learning_rate": 8.333333333333333e-07,
37
+ "loss": 0.7141,
38
+ "step": 10
39
+ },
40
+ {
41
+ "epoch": 0.75,
42
+ "learning_rate": 1.0000000000000002e-06,
43
+ "loss": 0.7065,
44
+ "step": 12
45
+ },
46
+ {
47
+ "epoch": 0.88,
48
+ "learning_rate": 1.1666666666666668e-06,
49
+ "loss": 0.6991,
50
+ "step": 14
51
+ },
52
+ {
53
+ "epoch": 1.0,
54
+ "learning_rate": 1.3333333333333334e-06,
55
+ "loss": 0.6982,
56
+ "step": 16
57
+ },
58
+ {
59
+ "epoch": 1.0,
60
+ "eval_accuracy": 0.465,
61
+ "eval_loss": 0.7003238797187805,
62
+ "eval_macro_f1": 0.3600287089924938,
63
+ "eval_runtime": 1.158,
64
+ "eval_samples_per_second": 345.415,
65
+ "eval_steps_per_second": 3.454,
66
+ "step": 16
67
+ },
68
+ {
69
+ "epoch": 1.12,
70
+ "learning_rate": 1.5e-06,
71
+ "loss": 0.6935,
72
+ "step": 18
73
+ },
74
+ {
75
+ "epoch": 1.25,
76
+ "learning_rate": 1.6666666666666667e-06,
77
+ "loss": 0.709,
78
+ "step": 20
79
+ },
80
+ {
81
+ "epoch": 1.38,
82
+ "learning_rate": 1.8333333333333335e-06,
83
+ "loss": 0.7093,
84
+ "step": 22
85
+ },
86
+ {
87
+ "epoch": 1.5,
88
+ "learning_rate": 2.0000000000000003e-06,
89
+ "loss": 0.6941,
90
+ "step": 24
91
+ },
92
+ {
93
+ "epoch": 1.62,
94
+ "learning_rate": 2.166666666666667e-06,
95
+ "loss": 0.7045,
96
+ "step": 26
97
+ },
98
+ {
99
+ "epoch": 1.75,
100
+ "learning_rate": 2.3333333333333336e-06,
101
+ "loss": 0.6984,
102
+ "step": 28
103
+ },
104
+ {
105
+ "epoch": 1.88,
106
+ "learning_rate": 2.5e-06,
107
+ "loss": 0.6953,
108
+ "step": 30
109
+ },
110
+ {
111
+ "epoch": 2.0,
112
+ "learning_rate": 2.666666666666667e-06,
113
+ "loss": 0.7116,
114
+ "step": 32
115
+ },
116
+ {
117
+ "epoch": 2.0,
118
+ "eval_accuracy": 0.48,
119
+ "eval_loss": 0.6973231434822083,
120
+ "eval_macro_f1": 0.4407249065634159,
121
+ "eval_runtime": 1.3824,
122
+ "eval_samples_per_second": 289.36,
123
+ "eval_steps_per_second": 2.894,
124
+ "step": 32
125
+ },
126
+ {
127
+ "epoch": 2.12,
128
+ "learning_rate": 2.8333333333333335e-06,
129
+ "loss": 0.69,
130
+ "step": 34
131
+ },
132
+ {
133
+ "epoch": 2.25,
134
+ "learning_rate": 3e-06,
135
+ "loss": 0.7007,
136
+ "step": 36
137
+ },
138
+ {
139
+ "epoch": 2.38,
140
+ "learning_rate": 3.166666666666667e-06,
141
+ "loss": 0.6977,
142
+ "step": 38
143
+ },
144
+ {
145
+ "epoch": 2.5,
146
+ "learning_rate": 3.3333333333333333e-06,
147
+ "loss": 0.6954,
148
+ "step": 40
149
+ },
150
+ {
151
+ "epoch": 2.62,
152
+ "learning_rate": 3.5000000000000004e-06,
153
+ "loss": 0.6978,
154
+ "step": 42
155
+ },
156
+ {
157
+ "epoch": 2.75,
158
+ "learning_rate": 3.666666666666667e-06,
159
+ "loss": 0.695,
160
+ "step": 44
161
+ },
162
+ {
163
+ "epoch": 2.88,
164
+ "learning_rate": 3.833333333333334e-06,
165
+ "loss": 0.695,
166
+ "step": 46
167
+ },
168
+ {
169
+ "epoch": 3.0,
170
+ "learning_rate": 4.000000000000001e-06,
171
+ "loss": 0.6939,
172
+ "step": 48
173
+ },
174
+ {
175
+ "epoch": 3.0,
176
+ "eval_accuracy": 0.5,
177
+ "eval_loss": 0.6936335563659668,
178
+ "eval_macro_f1": 0.49269480519480524,
179
+ "eval_runtime": 1.1744,
180
+ "eval_samples_per_second": 340.601,
181
+ "eval_steps_per_second": 3.406,
182
+ "step": 48
183
+ },
184
+ {
185
+ "epoch": 3.12,
186
+ "learning_rate": 4.166666666666667e-06,
187
+ "loss": 0.6958,
188
+ "step": 50
189
+ },
190
+ {
191
+ "epoch": 3.25,
192
+ "learning_rate": 4.333333333333334e-06,
193
+ "loss": 0.6893,
194
+ "step": 52
195
+ },
196
+ {
197
+ "epoch": 3.38,
198
+ "learning_rate": 4.5e-06,
199
+ "loss": 0.6905,
200
+ "step": 54
201
+ },
202
+ {
203
+ "epoch": 3.5,
204
+ "learning_rate": 4.666666666666667e-06,
205
+ "loss": 0.695,
206
+ "step": 56
207
+ },
208
+ {
209
+ "epoch": 3.62,
210
+ "learning_rate": 4.833333333333333e-06,
211
+ "loss": 0.6853,
212
+ "step": 58
213
+ },
214
+ {
215
+ "epoch": 3.75,
216
+ "learning_rate": 5e-06,
217
+ "loss": 0.6878,
218
+ "step": 60
219
+ },
220
+ {
221
+ "epoch": 3.88,
222
+ "learning_rate": 5.166666666666667e-06,
223
+ "loss": 0.6906,
224
+ "step": 62
225
+ },
226
+ {
227
+ "epoch": 4.0,
228
+ "learning_rate": 5.333333333333334e-06,
229
+ "loss": 0.6851,
230
+ "step": 64
231
+ },
232
+ {
233
+ "epoch": 4.0,
234
+ "eval_accuracy": 0.5175,
235
+ "eval_loss": 0.6912351846694946,
236
+ "eval_macro_f1": 0.37108455328266166,
237
+ "eval_runtime": 1.115,
238
+ "eval_samples_per_second": 358.733,
239
+ "eval_steps_per_second": 3.587,
240
+ "step": 64
241
+ },
242
+ {
243
+ "epoch": 4.12,
244
+ "learning_rate": 5.500000000000001e-06,
245
+ "loss": 0.689,
246
+ "step": 66
247
+ },
248
+ {
249
+ "epoch": 4.25,
250
+ "learning_rate": 5.666666666666667e-06,
251
+ "loss": 0.6775,
252
+ "step": 68
253
+ },
254
+ {
255
+ "epoch": 4.38,
256
+ "learning_rate": 5.833333333333334e-06,
257
+ "loss": 0.6853,
258
+ "step": 70
259
+ },
260
+ {
261
+ "epoch": 4.5,
262
+ "learning_rate": 6e-06,
263
+ "loss": 0.7045,
264
+ "step": 72
265
+ },
266
+ {
267
+ "epoch": 4.62,
268
+ "learning_rate": 6.166666666666667e-06,
269
+ "loss": 0.6794,
270
+ "step": 74
271
+ },
272
+ {
273
+ "epoch": 4.75,
274
+ "learning_rate": 6.333333333333334e-06,
275
+ "loss": 0.675,
276
+ "step": 76
277
+ },
278
+ {
279
+ "epoch": 4.88,
280
+ "learning_rate": 6.5000000000000004e-06,
281
+ "loss": 0.6976,
282
+ "step": 78
283
+ },
284
+ {
285
+ "epoch": 5.0,
286
+ "learning_rate": 6.666666666666667e-06,
287
+ "loss": 0.6789,
288
+ "step": 80
289
+ },
290
+ {
291
+ "epoch": 5.0,
292
+ "eval_accuracy": 0.5425,
293
+ "eval_loss": 0.6905966401100159,
294
+ "eval_macro_f1": 0.35170178282009723,
295
+ "eval_runtime": 1.1543,
296
+ "eval_samples_per_second": 346.521,
297
+ "eval_steps_per_second": 3.465,
298
+ "step": 80
299
+ },
300
+ {
301
+ "epoch": 5.12,
302
+ "learning_rate": 6.833333333333333e-06,
303
+ "loss": 0.6893,
304
+ "step": 82
305
+ },
306
+ {
307
+ "epoch": 5.25,
308
+ "learning_rate": 7.000000000000001e-06,
309
+ "loss": 0.6804,
310
+ "step": 84
311
+ },
312
+ {
313
+ "epoch": 5.38,
314
+ "learning_rate": 7.166666666666667e-06,
315
+ "loss": 0.6794,
316
+ "step": 86
317
+ },
318
+ {
319
+ "epoch": 5.5,
320
+ "learning_rate": 7.333333333333334e-06,
321
+ "loss": 0.6969,
322
+ "step": 88
323
+ },
324
+ {
325
+ "epoch": 5.62,
326
+ "learning_rate": 7.5e-06,
327
+ "loss": 0.675,
328
+ "step": 90
329
+ },
330
+ {
331
+ "epoch": 5.75,
332
+ "learning_rate": 7.666666666666667e-06,
333
+ "loss": 0.6785,
334
+ "step": 92
335
+ },
336
+ {
337
+ "epoch": 5.88,
338
+ "learning_rate": 7.833333333333333e-06,
339
+ "loss": 0.6877,
340
+ "step": 94
341
+ },
342
+ {
343
+ "epoch": 6.0,
344
+ "learning_rate": 8.000000000000001e-06,
345
+ "loss": 0.6668,
346
+ "step": 96
347
+ },
348
+ {
349
+ "epoch": 6.0,
350
+ "eval_accuracy": 0.5425,
351
+ "eval_loss": 0.6907917261123657,
352
+ "eval_macro_f1": 0.35170178282009723,
353
+ "eval_runtime": 1.0917,
354
+ "eval_samples_per_second": 366.384,
355
+ "eval_steps_per_second": 3.664,
356
+ "step": 96
357
+ },
358
+ {
359
+ "epoch": 6.12,
360
+ "learning_rate": 8.166666666666668e-06,
361
+ "loss": 0.7032,
362
+ "step": 98
363
+ },
364
+ {
365
+ "epoch": 6.25,
366
+ "learning_rate": 8.333333333333334e-06,
367
+ "loss": 0.6576,
368
+ "step": 100
369
+ },
370
+ {
371
+ "epoch": 6.38,
372
+ "learning_rate": 8.500000000000002e-06,
373
+ "loss": 0.6808,
374
+ "step": 102
375
+ },
376
+ {
377
+ "epoch": 6.5,
378
+ "learning_rate": 8.666666666666668e-06,
379
+ "loss": 0.6971,
380
+ "step": 104
381
+ },
382
+ {
383
+ "epoch": 6.62,
384
+ "learning_rate": 8.833333333333334e-06,
385
+ "loss": 0.6781,
386
+ "step": 106
387
+ },
388
+ {
389
+ "epoch": 6.75,
390
+ "learning_rate": 9e-06,
391
+ "loss": 0.667,
392
+ "step": 108
393
+ },
394
+ {
395
+ "epoch": 6.88,
396
+ "learning_rate": 9.166666666666666e-06,
397
+ "loss": 0.6914,
398
+ "step": 110
399
+ },
400
+ {
401
+ "epoch": 7.0,
402
+ "learning_rate": 9.333333333333334e-06,
403
+ "loss": 0.6841,
404
+ "step": 112
405
+ },
406
+ {
407
+ "epoch": 7.0,
408
+ "eval_accuracy": 0.5425,
409
+ "eval_loss": 0.6911839246749878,
410
+ "eval_macro_f1": 0.35170178282009723,
411
+ "eval_runtime": 1.1306,
412
+ "eval_samples_per_second": 353.8,
413
+ "eval_steps_per_second": 3.538,
414
+ "step": 112
415
+ }
416
+ ],
417
+ "max_steps": 320,
418
+ "num_train_epochs": 20,
419
+ "total_flos": 299367884390400.0,
420
+ "trial_name": null,
421
+ "trial_params": null
422
+ }
scaling_performance/2000/L4/fold3/config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.02,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.02,
9
+ "hidden_size": 256,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 512,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 2048,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 4,
16
+ "num_hidden_layers": 4,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "problem_type": "single_label_classification",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.28.0",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30522
25
+ }
scaling_performance/2000/L4/fold3/eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.5425,
3
+ "test_loss": 0.6905966401100159,
4
+ "test_macro_f1": 0.35170178282009723,
5
+ "test_runtime": 1.0988,
6
+ "test_samples_per_second": 364.045,
7
+ "test_steps_per_second": 3.64
8
+ }
scaling_performance/2000/L4/fold4/all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "test_accuracy": 0.6975,
3
+ "test_loss": 0.5687375068664551,
4
+ "test_macro_f1": 0.6942881145029971,
5
+ "test_runtime": 1.6145,
6
+ "test_samples_per_second": 247.752,
7
+ "test_steps_per_second": 2.478
8
+ }