amirali1985 commited on
Commit
4e1e4e0
·
verified ·
1 Parent(s): 09429c8

Upload add_sub_baseline_50K_1L3H510d

Browse files
add_sub_baseline_50K_1L3H510d/config.json ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "SorlModelWrapper"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": null,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 510,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 2040,
15
+ "layer_types": [
16
+ "full_attention"
17
+ ],
18
+ "max_position_embeddings": 128,
19
+ "max_window_layers": 28,
20
+ "model_type": "qwen3",
21
+ "num_attention_heads": 3,
22
+ "num_hidden_layers": 1,
23
+ "num_key_value_heads": 3,
24
+ "pad_token_id": null,
25
+ "rms_norm_eps": 1e-06,
26
+ "rope_parameters": {
27
+ "rope_theta": 10000.0,
28
+ "rope_type": "default"
29
+ },
30
+ "sliding_window": null,
31
+ "tie_word_embeddings": false,
32
+ "transformers_version": "5.5.0",
33
+ "use_cache": true,
34
+ "use_sliding_window": false,
35
+ "vocab_size": 151645
36
+ }
add_sub_baseline_50K_1L3H510d/generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "output_attentions": false,
4
+ "output_hidden_states": false,
5
+ "transformers_version": "5.5.0",
6
+ "use_cache": true
7
+ }
add_sub_baseline_50K_1L3H510d/metrics.json ADDED
@@ -0,0 +1,1831 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "history": {
3
+ "step": [
4
+ 50,
5
+ 100,
6
+ 150,
7
+ 200,
8
+ 250,
9
+ 300,
10
+ 350,
11
+ 400,
12
+ 450,
13
+ 500,
14
+ 550,
15
+ 600,
16
+ 650,
17
+ 700,
18
+ 750,
19
+ 800,
20
+ 850,
21
+ 900,
22
+ 950,
23
+ 1000,
24
+ 1050,
25
+ 1100,
26
+ 1150,
27
+ 1200,
28
+ 1250,
29
+ 1300,
30
+ 1350,
31
+ 1400,
32
+ 1450,
33
+ 1500,
34
+ 1550,
35
+ 1600,
36
+ 1650,
37
+ 1700,
38
+ 1750,
39
+ 1800,
40
+ 1850,
41
+ 1900,
42
+ 1950,
43
+ 2000,
44
+ 2050,
45
+ 2100,
46
+ 2150,
47
+ 2200,
48
+ 2250,
49
+ 2300,
50
+ 2350,
51
+ 2400,
52
+ 2450,
53
+ 2500,
54
+ 2550,
55
+ 2600,
56
+ 2650,
57
+ 2700,
58
+ 2750,
59
+ 2800,
60
+ 2850,
61
+ 2900,
62
+ 2950,
63
+ 3000,
64
+ 3050,
65
+ 3100,
66
+ 3150,
67
+ 3200,
68
+ 3250,
69
+ 3300,
70
+ 3350,
71
+ 3400,
72
+ 3450,
73
+ 3500,
74
+ 3550,
75
+ 3600,
76
+ 3650,
77
+ 3700,
78
+ 3750,
79
+ 3800,
80
+ 3850,
81
+ 3900,
82
+ 3950,
83
+ 4000,
84
+ 4050,
85
+ 4100,
86
+ 4150,
87
+ 4200,
88
+ 4250,
89
+ 4300,
90
+ 4350,
91
+ 4400,
92
+ 4450,
93
+ 4500,
94
+ 4550,
95
+ 4600,
96
+ 4650,
97
+ 4700,
98
+ 4750,
99
+ 4800,
100
+ 4850,
101
+ 4900,
102
+ 4950,
103
+ 5000,
104
+ 5050,
105
+ 5100,
106
+ 5150,
107
+ 5200,
108
+ 5250,
109
+ 5300,
110
+ 5350,
111
+ 5400,
112
+ 5450,
113
+ 5500,
114
+ 5550,
115
+ 5600,
116
+ 5650,
117
+ 5700,
118
+ 5750,
119
+ 5800,
120
+ 5850,
121
+ 5900,
122
+ 5950,
123
+ 6000,
124
+ 6050,
125
+ 6100,
126
+ 6150,
127
+ 6200,
128
+ 6250,
129
+ 6300,
130
+ 6350,
131
+ 6400,
132
+ 6450,
133
+ 6500,
134
+ 6550,
135
+ 6600,
136
+ 6650,
137
+ 6700,
138
+ 6750,
139
+ 6800,
140
+ 6850,
141
+ 6900,
142
+ 6950,
143
+ 7000,
144
+ 7050,
145
+ 7100,
146
+ 7150,
147
+ 7200,
148
+ 7250,
149
+ 7300,
150
+ 7350,
151
+ 7400,
152
+ 7450,
153
+ 7500,
154
+ 7550,
155
+ 7600,
156
+ 7650,
157
+ 7700,
158
+ 7750,
159
+ 7800,
160
+ 7850,
161
+ 7900,
162
+ 7950,
163
+ 8000,
164
+ 8050,
165
+ 8100,
166
+ 8150,
167
+ 8200,
168
+ 8250,
169
+ 8300,
170
+ 8350,
171
+ 8400,
172
+ 8450,
173
+ 8500,
174
+ 8550,
175
+ 8600,
176
+ 8650,
177
+ 8700,
178
+ 8750,
179
+ 8800,
180
+ 8850,
181
+ 8900,
182
+ 8950,
183
+ 9000,
184
+ 9050,
185
+ 9100,
186
+ 9150,
187
+ 9200,
188
+ 9250,
189
+ 9300,
190
+ 9350,
191
+ 9400,
192
+ 9450,
193
+ 9500,
194
+ 9550,
195
+ 9600,
196
+ 9650,
197
+ 9700,
198
+ 9750,
199
+ 9800,
200
+ 9850,
201
+ 9900,
202
+ 9950,
203
+ 10000,
204
+ 10050,
205
+ 10100,
206
+ 10150,
207
+ 10200,
208
+ 10250,
209
+ 10300,
210
+ 10350,
211
+ 10400,
212
+ 10450,
213
+ 10500,
214
+ 10550,
215
+ 10600,
216
+ 10650,
217
+ 10700,
218
+ 10750,
219
+ 10800,
220
+ 10850,
221
+ 10900,
222
+ 10950,
223
+ 11000,
224
+ 11050,
225
+ 11100,
226
+ 11150,
227
+ 11200,
228
+ 11250,
229
+ 11300,
230
+ 11350,
231
+ 11400,
232
+ 11450,
233
+ 11500,
234
+ 11550,
235
+ 11600,
236
+ 11650,
237
+ 11700,
238
+ 11750,
239
+ 11800,
240
+ 11850,
241
+ 11900,
242
+ 11950,
243
+ 12000,
244
+ 12050,
245
+ 12100,
246
+ 12150,
247
+ 12200,
248
+ 12250,
249
+ 12300,
250
+ 12350,
251
+ 12400,
252
+ 12450,
253
+ 12500,
254
+ 12550,
255
+ 12600,
256
+ 12650,
257
+ 12700,
258
+ 12750,
259
+ 12800,
260
+ 12850,
261
+ 12900,
262
+ 12950,
263
+ 13000,
264
+ 13050,
265
+ 13100,
266
+ 13150,
267
+ 13200,
268
+ 13250,
269
+ 13300,
270
+ 13350,
271
+ 13400,
272
+ 13450,
273
+ 13500,
274
+ 13550,
275
+ 13600,
276
+ 13650,
277
+ 13700,
278
+ 13750,
279
+ 13800,
280
+ 13850,
281
+ 13900,
282
+ 13950,
283
+ 14000,
284
+ 14050,
285
+ 14100,
286
+ 14150,
287
+ 14200,
288
+ 14250,
289
+ 14300,
290
+ 14350,
291
+ 14400,
292
+ 14450,
293
+ 14500,
294
+ 14550,
295
+ 14600,
296
+ 14650,
297
+ 14700,
298
+ 14750,
299
+ 14800,
300
+ 14850,
301
+ 14900,
302
+ 14950,
303
+ 15000,
304
+ 15050,
305
+ 15100,
306
+ 15150,
307
+ 15200,
308
+ 15250,
309
+ 15300,
310
+ 15350,
311
+ 15400,
312
+ 15450,
313
+ 15500,
314
+ 15550,
315
+ 15600
316
+ ],
317
+ "loss": [
318
+ 10.19568157196045,
319
+ 7.192863464355469,
320
+ 6.217032432556152,
321
+ 4.67427921295166,
322
+ 2.955170154571533,
323
+ 2.0684783458709717,
324
+ 1.879281759262085,
325
+ 1.9268118143081665,
326
+ 1.838002324104309,
327
+ 1.6958969831466675,
328
+ 1.6997877359390259,
329
+ 1.5733033418655396,
330
+ 1.5437490940093994,
331
+ 1.147268295288086,
332
+ 0.8210930228233337,
333
+ 0.7633241415023804,
334
+ 0.7406877279281616,
335
+ 0.7202191352844238,
336
+ 0.5617724061012268,
337
+ 0.5543747544288635,
338
+ 0.5196675658226013,
339
+ 0.515282154083252,
340
+ 0.541344404220581,
341
+ 0.4584448039531708,
342
+ 0.43351513147354126,
343
+ 0.43640443682670593,
344
+ 0.40899521112442017,
345
+ 0.3735989034175873,
346
+ 0.36980319023132324,
347
+ 0.38705509901046753,
348
+ 0.34830760955810547,
349
+ 0.3112049400806427,
350
+ 0.38858872652053833,
351
+ 0.3346550166606903,
352
+ 0.3554438054561615,
353
+ 0.31374162435531616,
354
+ 0.3362943232059479,
355
+ 0.3253510296344757,
356
+ 0.3735771179199219,
357
+ 0.31208163499832153,
358
+ 0.2946203649044037,
359
+ 0.28192415833473206,
360
+ 0.37054675817489624,
361
+ 0.2701527178287506,
362
+ 0.35655704140663147,
363
+ 0.29881080985069275,
364
+ 0.2859213054180145,
365
+ 0.28949055075645447,
366
+ 0.28196626901626587,
367
+ 0.23745205998420715,
368
+ 0.3055541217327118,
369
+ 0.32069405913352966,
370
+ 0.2612220048904419,
371
+ 0.2794129252433777,
372
+ 0.35670334100723267,
373
+ 0.2686660587787628,
374
+ 0.2621057331562042,
375
+ 0.2519742548465729,
376
+ 0.2593633234500885,
377
+ 0.23556630313396454,
378
+ 0.2755930423736572,
379
+ 0.23948059976100922,
380
+ 0.28940704464912415,
381
+ 0.23039786517620087,
382
+ 0.21981647610664368,
383
+ 0.2917427718639374,
384
+ 0.2732771635055542,
385
+ 0.24072220921516418,
386
+ 0.2149968147277832,
387
+ 0.22879359126091003,
388
+ 0.23625613749027252,
389
+ 0.2409660965204239,
390
+ 0.2549420893192291,
391
+ 0.19799569249153137,
392
+ 0.23658190667629242,
393
+ 0.25520455837249756,
394
+ 0.2438141405582428,
395
+ 0.21446263790130615,
396
+ 0.18694305419921875,
397
+ 0.21734251081943512,
398
+ 0.23308448493480682,
399
+ 0.25597816705703735,
400
+ 0.2303375005722046,
401
+ 0.22810396552085876,
402
+ 0.2421826273202896,
403
+ 0.24269063770771027,
404
+ 0.19383986294269562,
405
+ 0.19238220155239105,
406
+ 0.23637458682060242,
407
+ 0.2113189697265625,
408
+ 0.18594272434711456,
409
+ 0.2047307789325714,
410
+ 0.22051747143268585,
411
+ 0.2338298112154007,
412
+ 0.18495337665081024,
413
+ 0.31769758462905884,
414
+ 0.17948535084724426,
415
+ 0.16956846415996552,
416
+ 0.18370643258094788,
417
+ 0.21728311479091644,
418
+ 0.16529808938503265,
419
+ 0.1880127638578415,
420
+ 0.1927148550748825,
421
+ 0.17977656424045563,
422
+ 0.19032812118530273,
423
+ 0.225495383143425,
424
+ 0.18763747811317444,
425
+ 0.15616856515407562,
426
+ 0.2110285460948944,
427
+ 0.1917344182729721,
428
+ 0.19217932224273682,
429
+ 0.18634091317653656,
430
+ 0.17289797961711884,
431
+ 0.18017618358135223,
432
+ 0.16975148022174835,
433
+ 0.20279523730278015,
434
+ 0.18793119490146637,
435
+ 0.18208105862140656,
436
+ 0.2210826873779297,
437
+ 0.1848507970571518,
438
+ 0.175362229347229,
439
+ 0.2338799387216568,
440
+ 0.15665939450263977,
441
+ 0.1710033118724823,
442
+ 0.22897052764892578,
443
+ 0.19976939260959625,
444
+ 0.17123167216777802,
445
+ 0.17207647860050201,
446
+ 0.16104988753795624,
447
+ 0.17151372134685516,
448
+ 0.20540104806423187,
449
+ 0.16327939927577972,
450
+ 0.18736600875854492,
451
+ 0.15778745710849762,
452
+ 0.1724669635295868,
453
+ 0.22603313624858856,
454
+ 0.15962539613246918,
455
+ 0.17842444777488708,
456
+ 0.2059607207775116,
457
+ 0.16246894001960754,
458
+ 0.1688106805086136,
459
+ 0.15051047503948212,
460
+ 0.17147870361804962,
461
+ 0.1596122831106186,
462
+ 0.16684506833553314,
463
+ 0.17243006825447083,
464
+ 0.18031249940395355,
465
+ 0.15410535037517548,
466
+ 0.14030024409294128,
467
+ 0.17812776565551758,
468
+ 0.15372362732887268,
469
+ 0.16936704516410828,
470
+ 0.16118179261684418,
471
+ 0.15867330133914948,
472
+ 0.17409607768058777,
473
+ 0.16555775701999664,
474
+ 0.14979203045368195,
475
+ 0.11939563602209091,
476
+ 0.17306402325630188,
477
+ 0.19467274844646454,
478
+ 0.1610839068889618,
479
+ 0.14897356927394867,
480
+ 0.13533374667167664,
481
+ 0.1751706600189209,
482
+ 0.14803266525268555,
483
+ 0.14225070178508759,
484
+ 0.1285431832075119,
485
+ 0.15326274931430817,
486
+ 0.12212397158145905,
487
+ 0.15423189103603363,
488
+ 0.1676071733236313,
489
+ 0.17005637288093567,
490
+ 0.13811911642551422,
491
+ 0.1578800231218338,
492
+ 0.1245812326669693,
493
+ 0.14160023629665375,
494
+ 0.1362280547618866,
495
+ 0.13950759172439575,
496
+ 0.13266520202159882,
497
+ 0.12251361459493637,
498
+ 0.1468406617641449,
499
+ 0.13180361688137054,
500
+ 0.14409062266349792,
501
+ 0.10714907199144363,
502
+ 0.15004582703113556,
503
+ 0.1443106085062027,
504
+ 0.16568748652935028,
505
+ 0.13185156881809235,
506
+ 0.1419181525707245,
507
+ 0.12822316586971283,
508
+ 0.13271304965019226,
509
+ 0.14806745946407318,
510
+ 0.12749268114566803,
511
+ 0.14777174592018127,
512
+ 0.12936027348041534,
513
+ 0.16480930149555206,
514
+ 0.1283726692199707,
515
+ 0.17376258969306946,
516
+ 0.14537104964256287,
517
+ 0.17024172842502594,
518
+ 0.10525000840425491,
519
+ 0.13460473716259003,
520
+ 0.1136106625199318,
521
+ 0.14334174990653992,
522
+ 0.12381266057491302,
523
+ 0.11635736376047134,
524
+ 0.1619941145181656,
525
+ 0.11771261692047119,
526
+ 0.1627335399389267,
527
+ 0.13971097767353058,
528
+ 0.13618090748786926,
529
+ 0.13798284530639648,
530
+ 0.1138051375746727,
531
+ 0.10376495867967606,
532
+ 0.1188473179936409,
533
+ 0.14848637580871582,
534
+ 0.12351793795824051,
535
+ 0.1291089653968811,
536
+ 0.14152243733406067,
537
+ 0.120426245033741,
538
+ 0.12951800227165222,
539
+ 0.1462240368127823,
540
+ 0.12321526557207108,
541
+ 0.11646594107151031,
542
+ 0.16523265838623047,
543
+ 0.09980458766222,
544
+ 0.11321472376585007,
545
+ 0.11211931705474854,
546
+ 0.11767058819532394,
547
+ 0.12701120972633362,
548
+ 0.13879325985908508,
549
+ 0.15463045239448547,
550
+ 0.0981360599398613,
551
+ 0.0952308177947998,
552
+ 0.11886616051197052,
553
+ 0.11998490244150162,
554
+ 0.1317901909351349,
555
+ 0.12052290141582489,
556
+ 0.11561640352010727,
557
+ 0.1148061528801918,
558
+ 0.11529232561588287,
559
+ 0.1109485775232315,
560
+ 0.08685992658138275,
561
+ 0.10863905400037766,
562
+ 0.10214114189147949,
563
+ 0.11502943933010101,
564
+ 0.10768144577741623,
565
+ 0.12711675465106964,
566
+ 0.08342073112726212,
567
+ 0.11724580824375153,
568
+ 0.11047422140836716,
569
+ 0.1387486755847931,
570
+ 0.11161993443965912,
571
+ 0.10834724456071854,
572
+ 0.10992390662431717,
573
+ 0.09308646619319916,
574
+ 0.09626653045415878,
575
+ 0.0924919992685318,
576
+ 0.11180823296308517,
577
+ 0.10675805807113647,
578
+ 0.1210842952132225,
579
+ 0.11283500492572784,
580
+ 0.10502934455871582,
581
+ 0.09572649002075195,
582
+ 0.10792434215545654,
583
+ 0.10839086771011353,
584
+ 0.13045024871826172,
585
+ 0.1423415094614029,
586
+ 0.1113070398569107,
587
+ 0.11313152313232422,
588
+ 0.12788374722003937,
589
+ 0.10165081918239594,
590
+ 0.08276218920946121,
591
+ 0.10745533555746078,
592
+ 0.10156644880771637,
593
+ 0.09847947210073471,
594
+ 0.13116250932216644,
595
+ 0.11027399450540543,
596
+ 0.10681574791669846,
597
+ 0.11552350223064423,
598
+ 0.08603107184171677,
599
+ 0.10476719588041306,
600
+ 0.09377549588680267,
601
+ 0.11473890393972397,
602
+ 0.12605629861354828,
603
+ 0.1027151346206665,
604
+ 0.10792066156864166,
605
+ 0.08990789949893951,
606
+ 0.09799478948116302,
607
+ 0.07296454906463623,
608
+ 0.12055801600217819,
609
+ 0.12072388827800751,
610
+ 0.09598750621080399,
611
+ 0.10575366765260696,
612
+ 0.08751322329044342,
613
+ 0.09683708101511002,
614
+ 0.10606545954942703,
615
+ 0.09735989570617676,
616
+ 0.08438508957624435,
617
+ 0.12220897525548935,
618
+ 0.10032238811254501,
619
+ 0.08653612434864044,
620
+ 0.09255076199769974,
621
+ 0.12790820002555847,
622
+ 0.0972944125533104,
623
+ 0.09457828849554062,
624
+ 0.08459220826625824,
625
+ 0.12037122994661331,
626
+ 0.10575146228075027,
627
+ 0.09452326595783234,
628
+ 0.09958111494779587,
629
+ 0.11665801703929901
630
+ ],
631
+ "base_loss": [
632
+ 10.19568157196045,
633
+ 7.192863464355469,
634
+ 6.217032432556152,
635
+ 4.67427921295166,
636
+ 2.955170154571533,
637
+ 2.0684783458709717,
638
+ 1.879281759262085,
639
+ 1.9268118143081665,
640
+ 1.838002324104309,
641
+ 1.6958969831466675,
642
+ 1.6997877359390259,
643
+ 1.5733033418655396,
644
+ 1.5437490940093994,
645
+ 1.147268295288086,
646
+ 0.8210930228233337,
647
+ 0.7633241415023804,
648
+ 0.7406877279281616,
649
+ 0.7202191352844238,
650
+ 0.5617724061012268,
651
+ 0.5543747544288635,
652
+ 0.5196675658226013,
653
+ 0.515282154083252,
654
+ 0.541344404220581,
655
+ 0.4584448039531708,
656
+ 0.43351513147354126,
657
+ 0.43640443682670593,
658
+ 0.40899521112442017,
659
+ 0.3735989034175873,
660
+ 0.36980319023132324,
661
+ 0.38705509901046753,
662
+ 0.34830760955810547,
663
+ 0.3112049400806427,
664
+ 0.38858872652053833,
665
+ 0.3346550166606903,
666
+ 0.3554438054561615,
667
+ 0.31374162435531616,
668
+ 0.3362943232059479,
669
+ 0.3253510296344757,
670
+ 0.3735771179199219,
671
+ 0.31208163499832153,
672
+ 0.2946203649044037,
673
+ 0.28192415833473206,
674
+ 0.37054675817489624,
675
+ 0.2701527178287506,
676
+ 0.35655704140663147,
677
+ 0.29881080985069275,
678
+ 0.2859213054180145,
679
+ 0.28949055075645447,
680
+ 0.28196626901626587,
681
+ 0.23745205998420715,
682
+ 0.3055541217327118,
683
+ 0.32069405913352966,
684
+ 0.2612220048904419,
685
+ 0.2794129252433777,
686
+ 0.35670334100723267,
687
+ 0.2686660587787628,
688
+ 0.2621057331562042,
689
+ 0.2519742548465729,
690
+ 0.2593633234500885,
691
+ 0.23556630313396454,
692
+ 0.2755930423736572,
693
+ 0.23948059976100922,
694
+ 0.28940704464912415,
695
+ 0.23039786517620087,
696
+ 0.21981647610664368,
697
+ 0.2917427718639374,
698
+ 0.2732771635055542,
699
+ 0.24072220921516418,
700
+ 0.2149968147277832,
701
+ 0.22879359126091003,
702
+ 0.23625613749027252,
703
+ 0.2409660965204239,
704
+ 0.2549420893192291,
705
+ 0.19799569249153137,
706
+ 0.23658190667629242,
707
+ 0.25520455837249756,
708
+ 0.2438141405582428,
709
+ 0.21446263790130615,
710
+ 0.18694305419921875,
711
+ 0.21734251081943512,
712
+ 0.23308448493480682,
713
+ 0.25597816705703735,
714
+ 0.2303375005722046,
715
+ 0.22810396552085876,
716
+ 0.2421826273202896,
717
+ 0.24269063770771027,
718
+ 0.19383986294269562,
719
+ 0.19238220155239105,
720
+ 0.23637458682060242,
721
+ 0.2113189697265625,
722
+ 0.18594272434711456,
723
+ 0.2047307789325714,
724
+ 0.22051747143268585,
725
+ 0.2338298112154007,
726
+ 0.18495337665081024,
727
+ 0.31769758462905884,
728
+ 0.17948535084724426,
729
+ 0.16956846415996552,
730
+ 0.18370643258094788,
731
+ 0.21728311479091644,
732
+ 0.16529808938503265,
733
+ 0.1880127638578415,
734
+ 0.1927148550748825,
735
+ 0.17977656424045563,
736
+ 0.19032812118530273,
737
+ 0.225495383143425,
738
+ 0.18763747811317444,
739
+ 0.15616856515407562,
740
+ 0.2110285460948944,
741
+ 0.1917344182729721,
742
+ 0.19217932224273682,
743
+ 0.18634091317653656,
744
+ 0.17289797961711884,
745
+ 0.18017618358135223,
746
+ 0.16975148022174835,
747
+ 0.20279523730278015,
748
+ 0.18793119490146637,
749
+ 0.18208105862140656,
750
+ 0.2210826873779297,
751
+ 0.1848507970571518,
752
+ 0.175362229347229,
753
+ 0.2338799387216568,
754
+ 0.15665939450263977,
755
+ 0.1710033118724823,
756
+ 0.22897052764892578,
757
+ 0.19976939260959625,
758
+ 0.17123167216777802,
759
+ 0.17207647860050201,
760
+ 0.16104988753795624,
761
+ 0.17151372134685516,
762
+ 0.20540104806423187,
763
+ 0.16327939927577972,
764
+ 0.18736600875854492,
765
+ 0.15778745710849762,
766
+ 0.1724669635295868,
767
+ 0.22603313624858856,
768
+ 0.15962539613246918,
769
+ 0.17842444777488708,
770
+ 0.2059607207775116,
771
+ 0.16246894001960754,
772
+ 0.1688106805086136,
773
+ 0.15051047503948212,
774
+ 0.17147870361804962,
775
+ 0.1596122831106186,
776
+ 0.16684506833553314,
777
+ 0.17243006825447083,
778
+ 0.18031249940395355,
779
+ 0.15410535037517548,
780
+ 0.14030024409294128,
781
+ 0.17812776565551758,
782
+ 0.15372362732887268,
783
+ 0.16936704516410828,
784
+ 0.16118179261684418,
785
+ 0.15867330133914948,
786
+ 0.17409607768058777,
787
+ 0.16555775701999664,
788
+ 0.14979203045368195,
789
+ 0.11939563602209091,
790
+ 0.17306402325630188,
791
+ 0.19467274844646454,
792
+ 0.1610839068889618,
793
+ 0.14897356927394867,
794
+ 0.13533374667167664,
795
+ 0.1751706600189209,
796
+ 0.14803266525268555,
797
+ 0.14225070178508759,
798
+ 0.1285431832075119,
799
+ 0.15326274931430817,
800
+ 0.12212397158145905,
801
+ 0.15423189103603363,
802
+ 0.1676071733236313,
803
+ 0.17005637288093567,
804
+ 0.13811911642551422,
805
+ 0.1578800231218338,
806
+ 0.1245812326669693,
807
+ 0.14160023629665375,
808
+ 0.1362280547618866,
809
+ 0.13950759172439575,
810
+ 0.13266520202159882,
811
+ 0.12251361459493637,
812
+ 0.1468406617641449,
813
+ 0.13180361688137054,
814
+ 0.14409062266349792,
815
+ 0.10714907199144363,
816
+ 0.15004582703113556,
817
+ 0.1443106085062027,
818
+ 0.16568748652935028,
819
+ 0.13185156881809235,
820
+ 0.1419181525707245,
821
+ 0.12822316586971283,
822
+ 0.13271304965019226,
823
+ 0.14806745946407318,
824
+ 0.12749268114566803,
825
+ 0.14777174592018127,
826
+ 0.12936027348041534,
827
+ 0.16480930149555206,
828
+ 0.1283726692199707,
829
+ 0.17376258969306946,
830
+ 0.14537104964256287,
831
+ 0.17024172842502594,
832
+ 0.10525000840425491,
833
+ 0.13460473716259003,
834
+ 0.1136106625199318,
835
+ 0.14334174990653992,
836
+ 0.12381266057491302,
837
+ 0.11635736376047134,
838
+ 0.1619941145181656,
839
+ 0.11771261692047119,
840
+ 0.1627335399389267,
841
+ 0.13971097767353058,
842
+ 0.13618090748786926,
843
+ 0.13798284530639648,
844
+ 0.1138051375746727,
845
+ 0.10376495867967606,
846
+ 0.1188473179936409,
847
+ 0.14848637580871582,
848
+ 0.12351793795824051,
849
+ 0.1291089653968811,
850
+ 0.14152243733406067,
851
+ 0.120426245033741,
852
+ 0.12951800227165222,
853
+ 0.1462240368127823,
854
+ 0.12321526557207108,
855
+ 0.11646594107151031,
856
+ 0.16523265838623047,
857
+ 0.09980458766222,
858
+ 0.11321472376585007,
859
+ 0.11211931705474854,
860
+ 0.11767058819532394,
861
+ 0.12701120972633362,
862
+ 0.13879325985908508,
863
+ 0.15463045239448547,
864
+ 0.0981360599398613,
865
+ 0.0952308177947998,
866
+ 0.11886616051197052,
867
+ 0.11998490244150162,
868
+ 0.1317901909351349,
869
+ 0.12052290141582489,
870
+ 0.11561640352010727,
871
+ 0.1148061528801918,
872
+ 0.11529232561588287,
873
+ 0.1109485775232315,
874
+ 0.08685992658138275,
875
+ 0.10863905400037766,
876
+ 0.10214114189147949,
877
+ 0.11502943933010101,
878
+ 0.10768144577741623,
879
+ 0.12711675465106964,
880
+ 0.08342073112726212,
881
+ 0.11724580824375153,
882
+ 0.11047422140836716,
883
+ 0.1387486755847931,
884
+ 0.11161993443965912,
885
+ 0.10834724456071854,
886
+ 0.10992390662431717,
887
+ 0.09308646619319916,
888
+ 0.09626653045415878,
889
+ 0.0924919992685318,
890
+ 0.11180823296308517,
891
+ 0.10675805807113647,
892
+ 0.1210842952132225,
893
+ 0.11283500492572784,
894
+ 0.10502934455871582,
895
+ 0.09572649002075195,
896
+ 0.10792434215545654,
897
+ 0.10839086771011353,
898
+ 0.13045024871826172,
899
+ 0.1423415094614029,
900
+ 0.1113070398569107,
901
+ 0.11313152313232422,
902
+ 0.12788374722003937,
903
+ 0.10165081918239594,
904
+ 0.08276218920946121,
905
+ 0.10745533555746078,
906
+ 0.10156644880771637,
907
+ 0.09847947210073471,
908
+ 0.13116250932216644,
909
+ 0.11027399450540543,
910
+ 0.10681574791669846,
911
+ 0.11552350223064423,
912
+ 0.08603107184171677,
913
+ 0.10476719588041306,
914
+ 0.09377549588680267,
915
+ 0.11473890393972397,
916
+ 0.12605629861354828,
917
+ 0.1027151346206665,
918
+ 0.10792066156864166,
919
+ 0.08990789949893951,
920
+ 0.09799478948116302,
921
+ 0.07296454906463623,
922
+ 0.12055801600217819,
923
+ 0.12072388827800751,
924
+ 0.09598750621080399,
925
+ 0.10575366765260696,
926
+ 0.08751322329044342,
927
+ 0.09683708101511002,
928
+ 0.10606545954942703,
929
+ 0.09735989570617676,
930
+ 0.08438508957624435,
931
+ 0.12220897525548935,
932
+ 0.10032238811254501,
933
+ 0.08653612434864044,
934
+ 0.09255076199769974,
935
+ 0.12790820002555847,
936
+ 0.0972944125533104,
937
+ 0.09457828849554062,
938
+ 0.08459220826625824,
939
+ 0.12037122994661331,
940
+ 0.10575146228075027,
941
+ 0.09452326595783234,
942
+ 0.09958111494779587,
943
+ 0.11665801703929901
944
+ ],
945
+ "lr": [
946
+ 8.376068376068378e-06,
947
+ 1.6923076923076924e-05,
948
+ 2.5470085470085475e-05,
949
+ 3.401709401709402e-05,
950
+ 4.2564102564102564e-05,
951
+ 5.1111111111111115e-05,
952
+ 5.9658119658119666e-05,
953
+ 6.820512820512821e-05,
954
+ 7.675213675213675e-05,
955
+ 7.999917592646048e-05,
956
+ 7.999437394556597e-05,
957
+ 7.998528500784705e-05,
958
+ 7.997191008753788e-05,
959
+ 7.995425061828272e-05,
960
+ 7.993230849298239e-05,
961
+ 7.990608606359128e-05,
962
+ 7.987558614086529e-05,
963
+ 7.984081199406053e-05,
964
+ 7.980176735058294e-05,
965
+ 7.975845639558867e-05,
966
+ 7.971088377153555e-05,
967
+ 7.965905457768543e-05,
968
+ 7.96029743695576e-05,
969
+ 7.954264915833332e-05,
970
+ 7.947808541021147e-05,
971
+ 7.940929004571544e-05,
972
+ 7.933627043895137e-05,
973
+ 7.925903441681762e-05,
974
+ 7.917759025816593e-05,
975
+ 7.9091946692914e-05,
976
+ 7.900211290110966e-05,
977
+ 7.890809851194693e-05,
978
+ 7.880991360273391e-05,
979
+ 7.870756869781249e-05,
980
+ 7.860107476743038e-05,
981
+ 7.849044322656517e-05,
982
+ 7.837568593370073e-05,
983
+ 7.825681518955616e-05,
984
+ 7.813384373576731e-05,
985
+ 7.800678475352094e-05,
986
+ 7.78756518621419e-05,
987
+ 7.774045911763327e-05,
988
+ 7.760122101116976e-05,
989
+ 7.745795246754429e-05,
990
+ 7.731066884356836e-05,
991
+ 7.715938592642586e-05,
992
+ 7.700411993198093e-05,
993
+ 7.684488750303978e-05,
994
+ 7.668170570756673e-05,
995
+ 7.651459203685475e-05,
996
+ 7.634356440365058e-05,
997
+ 7.616864114023463e-05,
998
+ 7.598984099645608e-05,
999
+ 7.580718313772295e-05,
1000
+ 7.562068714294791e-05,
1001
+ 7.543037300244957e-05,
1002
+ 7.523626111580973e-05,
1003
+ 7.50383722896868e-05,
1004
+ 7.483672773558555e-05,
1005
+ 7.463134906758347e-05,
1006
+ 7.442225830001397e-05,
1007
+ 7.420947784510667e-05,
1008
+ 7.399303051058509e-05,
1009
+ 7.37729394972219e-05,
1010
+ 7.354922839635207e-05,
1011
+ 7.332192118734404e-05,
1012
+ 7.309104223502958e-05,
1013
+ 7.285661628709196e-05,
1014
+ 7.261866847141341e-05,
1015
+ 7.237722429338159e-05,
1016
+ 7.213230963315574e-05,
1017
+ 7.188395074289262e-05,
1018
+ 7.163217424393255e-05,
1019
+ 7.137700712394589e-05,
1020
+ 7.111847673404027e-05,
1021
+ 7.085661078582884e-05,
1022
+ 7.059143734845993e-05,
1023
+ 7.032298484560829e-05,
1024
+ 7.005128205242838e-05,
1025
+ 6.977635809247008e-05,
1026
+ 6.949824243455688e-05,
1027
+ 6.921696488962715e-05,
1028
+ 6.893255560753881e-05,
1029
+ 6.864504507383748e-05,
1030
+ 6.835446410648889e-05,
1031
+ 6.806084385257542e-05,
1032
+ 6.776421578495758e-05,
1033
+ 6.746461169890036e-05,
1034
+ 6.716206370866522e-05,
1035
+ 6.685660424406774e-05,
1036
+ 6.654826604700153e-05,
1037
+ 6.623708216792863e-05,
1038
+ 6.592308596233687e-05,
1039
+ 6.560631108716458e-05,
1040
+ 6.528679149719284e-05,
1041
+ 6.496456144140604e-05,
1042
+ 6.463965545932057e-05,
1043
+ 6.431210837728275e-05,
1044
+ 6.398195530473573e-05,
1045
+ 6.364923163045619e-05,
1046
+ 6.331397301876102e-05,
1047
+ 6.29762154056845e-05,
1048
+ 6.263599499512636e-05,
1049
+ 6.229334825497113e-05,
1050
+ 6.194831191317919e-05,
1051
+ 6.160092295384987e-05,
1052
+ 6.12512186132573e-05,
1053
+ 6.089923637585891e-05,
1054
+ 6.054501397027768e-05,
1055
+ 6.0188589365257925e-05,
1056
+ 5.9830000765595515e-05,
1057
+ 5.946928660804276e-05,
1058
+ 5.9106485557188376e-05,
1059
+ 5.874163650131307e-05,
1060
+ 5.837477854822114e-05,
1061
+ 5.800595102104858e-05,
1062
+ 5.763519345404807e-05,
1063
+ 5.72625455883513e-05,
1064
+ 5.6888047367709176e-05,
1065
+ 5.651173893421031e-05,
1066
+ 5.613366062397822e-05,
1067
+ 5.575385296284772e-05,
1068
+ 5.5372356662021e-05,
1069
+ 5.498921261370389e-05,
1070
+ 5.460446188672256e-05,
1071
+ 5.421814572212151e-05,
1072
+ 5.383030552874291e-05,
1073
+ 5.3440982878788026e-05,
1074
+ 5.305021950336117e-05,
1075
+ 5.265805728799659e-05,
1076
+ 5.226453826816876e-05,
1077
+ 5.186970462478666e-05,
1078
+ 5.1473598679672494e-05,
1079
+ 5.107626289102515e-05,
1080
+ 5.0677739848869245e-05,
1081
+ 5.027807227048991e-05,
1082
+ 4.987730299585396e-05,
1083
+ 4.9475474983017934e-05,
1084
+ 4.907263130352345e-05,
1085
+ 4.866881513778038e-05,
1086
+ 4.826406977043851e-05,
1087
+ 4.7858438585747725e-05,
1088
+ 4.745196506290783e-05,
1089
+ 4.7044692771407994e-05,
1090
+ 4.663666536635661e-05,
1091
+ 4.622792658380193e-05,
1092
+ 4.581852023604404e-05,
1093
+ 4.540849020693867e-05,
1094
+ 4.499788044719335e-05,
1095
+ 4.458673496965632e-05,
1096
+ 4.417509784459891e-05,
1097
+ 4.3763013194991616e-05,
1098
+ 4.335052519177469e-05,
1099
+ 4.2937678049123405e-05,
1100
+ 4.252451601970885e-05,
1101
+ 4.2111083389954525e-05,
1102
+ 4.1697424475289266e-05,
1103
+ 4.128358361539723e-05,
1104
+ 4.0869605169465014e-05,
1105
+ 4.045553351142702e-05,
1106
+ 4.0041413025208874e-05,
1107
+ 3.9627288099970094e-05,
1108
+ 3.921320312534601e-05,
1109
+ 3.879920248668968e-05,
1110
+ 3.838533056031426e-05,
1111
+ 3.7971631708736386e-05,
1112
+ 3.755815027592099e-05,
1113
+ 3.7144930582528044e-05,
1114
+ 3.673201692116201e-05,
1115
+ 3.631945355162404e-05,
1116
+ 3.5907284696167886e-05,
1117
+ 3.549555453475968e-05,
1118
+ 3.5084307200342426e-05,
1119
+ 3.467358677410541e-05,
1120
+ 3.426343728075905e-05,
1121
+ 3.3853902683816166e-05,
1122
+ 3.344502688087938e-05,
1123
+ 3.303685369893586e-05,
1124
+ 3.262942688965953e-05,
1125
+ 3.222279012472138e-05,
1126
+ 3.181698699110837e-05,
1127
+ 3.1412060986451285e-05,
1128
+ 3.100805551436239e-05,
1129
+ 3.060501387978301e-05,
1130
+ 3.0202979284341613e-05,
1131
+ 2.9801994821723217e-05,
1132
+ 2.940210347305013e-05,
1133
+ 2.9003348102274914e-05,
1134
+ 2.8605771451585716e-05,
1135
+ 2.8209416136824944e-05,
1136
+ 2.7814324642921193e-05,
1137
+ 2.742053931933536e-05,
1138
+ 2.7028102375521285e-05,
1139
+ 2.663705587640131e-05,
1140
+ 2.6247441737857415e-05,
1141
+ 2.585930172223826e-05,
1142
+ 2.5472677433882806e-05,
1143
+ 2.5087610314660693e-05,
1144
+ 2.4704141639530145e-05,
1145
+ 2.4322312512113788e-05,
1146
+ 2.3942163860292792e-05,
1147
+ 2.3563736431819786e-05,
1148
+ 2.3187070789951253e-05,
1149
+ 2.2812207309099484e-05,
1150
+ 2.243918617050497e-05,
1151
+ 2.206804735792938e-05,
1152
+ 2.1698830653369728e-05,
1153
+ 2.1331575632794218e-05,
1154
+ 2.0966321661900107e-05,
1155
+ 2.060310789189414e-05,
1156
+ 2.0241973255296008e-05,
1157
+ 1.9882956461765102e-05,
1158
+ 1.9526095993951397e-05,
1159
+ 1.9171430103370494e-05,
1160
+ 1.8818996806303432e-05,
1161
+ 1.8468833879721774e-05,
1162
+ 1.8120978857238367e-05,
1163
+ 1.7775469025084143e-05,
1164
+ 1.7432341418111432e-05,
1165
+ 1.7091632815824213e-05,
1166
+ 1.6753379738435826e-05,
1167
+ 1.6417618442954277e-05,
1168
+ 1.608438491929607e-05,
1169
+ 1.575371488642832e-05,
1170
+ 1.5425643788540173e-05,
1171
+ 1.5100206791243474e-05,
1172
+ 1.4777438777803532e-05,
1173
+ 1.4457374345399963e-05,
1174
+ 1.4140047801418182e-05,
1175
+ 1.3825493159772134e-05,
1176
+ 1.3513744137258327e-05,
1177
+ 1.3204834149941763e-05,
1178
+ 1.2898796309574113e-05,
1179
+ 1.2595663420044493e-05,
1180
+ 1.2295467973863255e-05,
1181
+ 1.199824214867915e-05,
1182
+ 1.1704017803830223e-05,
1183
+ 1.1412826476928878e-05,
1184
+ 1.1124699380481312e-05,
1185
+ 1.0839667398541982e-05,
1186
+ 1.055776108340313e-05,
1187
+ 1.0279010652319892e-05,
1188
+ 1.0003445984271339e-05,
1189
+ 9.731096616757823e-06,
1190
+ 9.461991742634855e-06,
1191
+ 9.196160206983947e-06,
1192
+ 8.933630504020749e-06,
1193
+ 8.67443077404078e-06,
1194
+ 8.418588800403067e-06,
1195
+ 8.166132006552154e-06,
1196
+ 7.917087453078518e-06,
1197
+ 7.671481834818038e-06,
1198
+ 7.429341477990548e-06,
1199
+ 7.190692337378e-06,
1200
+ 6.955559993542414e-06,
1201
+ 6.72396965008383e-06,
1202
+ 6.4959461309388684e-06,
1203
+ 6.271513877719808e-06,
1204
+ 6.050696947094743e-06,
1205
+ 5.833519008208961e-06,
1206
+ 5.620003340147877e-06,
1207
+ 5.410172829441784e-06,
1208
+ 5.204049967612607e-06,
1209
+ 5.001656848763174e-06,
1210
+ 4.803015167208869e-06,
1211
+ 4.6081462151522605e-06,
1212
+ 4.417070880400856e-06,
1213
+ 4.2298096441281e-06,
1214
+ 4.046382578678101e-06,
1215
+ 3.866809345413973e-06,
1216
+ 3.6911091926104694e-06,
1217
+ 3.519300953390721e-06,
1218
+ 3.3514030437075486e-06,
1219
+ 3.187433460369471e-06,
1220
+ 3.027409779111654e-06,
1221
+ 2.8713491527119485e-06,
1222
+ 2.719268309152363e-06,
1223
+ 2.571183549825973e-06,
1224
+ 2.4271107477895805e-06,
1225
+ 2.2870653460623073e-06,
1226
+ 2.15106235597029e-06,
1227
+ 2.019116355537607e-06,
1228
+ 1.8912414879236918e-06,
1229
+ 1.7674514599073277e-06,
1230
+ 1.6477595404174484e-06,
1231
+ 1.5321785591108262e-06,
1232
+ 1.4207209049969195e-06,
1233
+ 1.3133985251098636e-06,
1234
+ 1.2102229232279083e-06,
1235
+ 1.1112051586403162e-06,
1236
+ 1.0163558449619404e-06,
1237
+ 9.256851489955854e-07,
1238
+ 8.392027896421884e-07,
1239
+ 7.569180368591022e-07,
1240
+ 6.788397106664324e-07,
1241
+ 6.049761802016418e-07,
1242
+ 5.353353628224734e-07,
1243
+ 4.699247232582815e-07,
1244
+ 4.087512728099041e-07,
1245
+ 3.518215685981341e-07,
1246
+ 2.991417128608598e-07,
1247
+ 2.5071735229897477e-07,
1248
+ 2.0655367747110634e-07,
1249
+ 1.6665542223726073e-07,
1250
+ 1.3102686325139335e-07,
1251
+ 9.967181950301108e-08,
1252
+ 7.259365190778856e-08,
1253
+ 4.9795262947358594e-08,
1254
+ 3.127909635815662e-08,
1255
+ 1.7047136869505764e-08,
1256
+ 7.10090999087143e-09,
1257
+ 1.4414818483343695e-09
1258
+ ],
1259
+ "eval_step": [
1260
+ 781,
1261
+ 1562,
1262
+ 2343,
1263
+ 3124,
1264
+ 3905,
1265
+ 4686,
1266
+ 5467,
1267
+ 6248,
1268
+ 7029,
1269
+ 7810,
1270
+ 8591,
1271
+ 9372,
1272
+ 10153,
1273
+ 10934,
1274
+ 11715,
1275
+ 12496,
1276
+ 13277,
1277
+ 14058,
1278
+ 14839,
1279
+ 15620
1280
+ ],
1281
+ "eval_epoch": [
1282
+ 1,
1283
+ 2,
1284
+ 3,
1285
+ 4,
1286
+ 5,
1287
+ 6,
1288
+ 7,
1289
+ 8,
1290
+ 9,
1291
+ 10,
1292
+ 11,
1293
+ 12,
1294
+ 13,
1295
+ 14,
1296
+ 15,
1297
+ 16,
1298
+ 17,
1299
+ 18,
1300
+ 19,
1301
+ 20
1302
+ ],
1303
+ "eval_accuracy": [
1304
+ 0.021111111111111112,
1305
+ 0.24,
1306
+ 0.3611111111111111,
1307
+ 0.44666666666666666,
1308
+ 0.4588888888888889,
1309
+ 0.5144444444444445,
1310
+ 0.5033333333333333,
1311
+ 0.5022222222222222,
1312
+ 0.5611111111111111,
1313
+ 0.57,
1314
+ 0.5722222222222222,
1315
+ 0.6244444444444445,
1316
+ 0.6166666666666667,
1317
+ 0.6211111111111111,
1318
+ 0.6455555555555555,
1319
+ 0.6711111111111111,
1320
+ 0.6311111111111111,
1321
+ 0.6322222222222222,
1322
+ 0.6533333333333333,
1323
+ 0.6666666666666666
1324
+ ]
1325
+ },
1326
+ "final_accuracy": 0.54125,
1327
+ "sft_eval": {
1328
+ "config": {
1329
+ "ops": "add_sub",
1330
+ "K": null,
1331
+ "mode": "sft",
1332
+ "n_digits": 6,
1333
+ "n_per_split": 100
1334
+ },
1335
+ "splits": {
1336
+ "add_S0": {
1337
+ "full_accuracy": 0.94,
1338
+ "n_examples": 100,
1339
+ "per_subtask": {
1340
+ "SA": {
1341
+ "accuracy": 0.9900826446280991,
1342
+ "count": 605
1343
+ },
1344
+ "SS": {
1345
+ "accuracy": 1.0,
1346
+ "count": 95
1347
+ }
1348
+ }
1349
+ },
1350
+ "add_S1": {
1351
+ "full_accuracy": 0.94,
1352
+ "n_examples": 100,
1353
+ "per_subtask": {
1354
+ "SA": {
1355
+ "accuracy": 0.9901960784313726,
1356
+ "count": 204
1357
+ },
1358
+ "SC": {
1359
+ "accuracy": 0.9940828402366864,
1360
+ "count": 169
1361
+ },
1362
+ "SS": {
1363
+ "accuracy": 1.0,
1364
+ "count": 31
1365
+ },
1366
+ "UC": {
1367
+ "accuracy": 0.9898648648648649,
1368
+ "count": 296
1369
+ }
1370
+ }
1371
+ },
1372
+ "add_S2": {
1373
+ "full_accuracy": 0.64,
1374
+ "n_examples": 100,
1375
+ "per_subtask": {
1376
+ "SA": {
1377
+ "accuracy": 0.9877300613496932,
1378
+ "count": 163
1379
+ },
1380
+ "SC": {
1381
+ "accuracy": 0.9384615384615385,
1382
+ "count": 130
1383
+ },
1384
+ "SS": {
1385
+ "accuracy": 0.9540229885057471,
1386
+ "count": 87
1387
+ },
1388
+ "UC": {
1389
+ "accuracy": 0.8669950738916257,
1390
+ "count": 203
1391
+ },
1392
+ "US": {
1393
+ "accuracy": 1.0,
1394
+ "count": 117
1395
+ }
1396
+ }
1397
+ },
1398
+ "add_S3": {
1399
+ "full_accuracy": 0.3,
1400
+ "n_examples": 100,
1401
+ "per_subtask": {
1402
+ "SA": {
1403
+ "accuracy": 0.9917355371900827,
1404
+ "count": 121
1405
+ },
1406
+ "SC": {
1407
+ "accuracy": 0.9421487603305785,
1408
+ "count": 121
1409
+ },
1410
+ "SS": {
1411
+ "accuracy": 0.9795918367346939,
1412
+ "count": 49
1413
+ },
1414
+ "UC": {
1415
+ "accuracy": 0.6935483870967742,
1416
+ "count": 186
1417
+ },
1418
+ "US": {
1419
+ "accuracy": 0.820627802690583,
1420
+ "count": 223
1421
+ }
1422
+ }
1423
+ },
1424
+ "add_S4": {
1425
+ "full_accuracy": 0.31,
1426
+ "n_examples": 100,
1427
+ "per_subtask": {
1428
+ "SA": {
1429
+ "accuracy": 1.0,
1430
+ "count": 104
1431
+ },
1432
+ "SC": {
1433
+ "accuracy": 1.0,
1434
+ "count": 106
1435
+ },
1436
+ "SS": {
1437
+ "accuracy": 1.0,
1438
+ "count": 23
1439
+ },
1440
+ "UC": {
1441
+ "accuracy": 0.65625,
1442
+ "count": 160
1443
+ },
1444
+ "US": {
1445
+ "accuracy": 0.6351791530944625,
1446
+ "count": 307
1447
+ }
1448
+ }
1449
+ },
1450
+ "add_S5": {
1451
+ "full_accuracy": 0.26,
1452
+ "n_examples": 100,
1453
+ "per_subtask": {
1454
+ "SA": {
1455
+ "accuracy": 1.0,
1456
+ "count": 100
1457
+ },
1458
+ "SC": {
1459
+ "accuracy": 1.0,
1460
+ "count": 100
1461
+ },
1462
+ "UC": {
1463
+ "accuracy": 0.42,
1464
+ "count": 100
1465
+ },
1466
+ "US": {
1467
+ "accuracy": 0.525,
1468
+ "count": 400
1469
+ }
1470
+ }
1471
+ },
1472
+ "add_S6": {
1473
+ "full_accuracy": 0.45,
1474
+ "n_examples": 100,
1475
+ "per_subtask": {
1476
+ "SC": {
1477
+ "accuracy": 1.0,
1478
+ "count": 100
1479
+ },
1480
+ "UC": {
1481
+ "accuracy": 0.58,
1482
+ "count": 100
1483
+ },
1484
+ "US": {
1485
+ "accuracy": 0.594,
1486
+ "count": 500
1487
+ }
1488
+ }
1489
+ },
1490
+ "add_random": {
1491
+ "full_accuracy": 0.88,
1492
+ "n_examples": 200,
1493
+ "per_subtask": {
1494
+ "SA": {
1495
+ "accuracy": 0.9910514541387024,
1496
+ "count": 447
1497
+ },
1498
+ "SC": {
1499
+ "accuracy": 0.990625,
1500
+ "count": 320
1501
+ },
1502
+ "SS": {
1503
+ "accuracy": 0.9464285714285714,
1504
+ "count": 56
1505
+ },
1506
+ "UC": {
1507
+ "accuracy": 0.9716446124763705,
1508
+ "count": 529
1509
+ },
1510
+ "US": {
1511
+ "accuracy": 0.9791666666666666,
1512
+ "count": 48
1513
+ }
1514
+ }
1515
+ },
1516
+ "add_C3": {
1517
+ "full_accuracy": 0.53,
1518
+ "n_examples": 100,
1519
+ "per_subtask": {
1520
+ "SA": {
1521
+ "accuracy": 0.9866666666666667,
1522
+ "count": 300
1523
+ },
1524
+ "SC": {
1525
+ "accuracy": 1.0,
1526
+ "count": 100
1527
+ },
1528
+ "UC": {
1529
+ "accuracy": 0.7927461139896373,
1530
+ "count": 193
1531
+ },
1532
+ "US": {
1533
+ "accuracy": 0.8037383177570093,
1534
+ "count": 107
1535
+ }
1536
+ }
1537
+ },
1538
+ "add_C4": {
1539
+ "full_accuracy": 0.5,
1540
+ "n_examples": 100,
1541
+ "per_subtask": {
1542
+ "SA": {
1543
+ "accuracy": 1.0,
1544
+ "count": 200
1545
+ },
1546
+ "SC": {
1547
+ "accuracy": 1.0,
1548
+ "count": 100
1549
+ },
1550
+ "UC": {
1551
+ "accuracy": 0.8046875,
1552
+ "count": 256
1553
+ },
1554
+ "US": {
1555
+ "accuracy": 0.8055555555555556,
1556
+ "count": 144
1557
+ }
1558
+ }
1559
+ },
1560
+ "add_C5": {
1561
+ "full_accuracy": 0.51,
1562
+ "n_examples": 100,
1563
+ "per_subtask": {
1564
+ "SA": {
1565
+ "accuracy": 1.0,
1566
+ "count": 100
1567
+ },
1568
+ "SC": {
1569
+ "accuracy": 1.0,
1570
+ "count": 100
1571
+ },
1572
+ "UC": {
1573
+ "accuracy": 0.8496732026143791,
1574
+ "count": 306
1575
+ },
1576
+ "US": {
1577
+ "accuracy": 0.8402061855670103,
1578
+ "count": 194
1579
+ }
1580
+ }
1581
+ },
1582
+ "add_C6": {
1583
+ "full_accuracy": 0.44,
1584
+ "n_examples": 100,
1585
+ "per_subtask": {
1586
+ "SC": {
1587
+ "accuracy": 1.0,
1588
+ "count": 100
1589
+ },
1590
+ "UC": {
1591
+ "accuracy": 0.8579234972677595,
1592
+ "count": 366
1593
+ },
1594
+ "US": {
1595
+ "accuracy": 0.8717948717948718,
1596
+ "count": 234
1597
+ }
1598
+ }
1599
+ },
1600
+ "sub_M0": {
1601
+ "full_accuracy": 0.88,
1602
+ "n_examples": 100,
1603
+ "per_subtask": {
1604
+ "MD": {
1605
+ "accuracy": 0.9800332778702163,
1606
+ "count": 601
1607
+ },
1608
+ "ME": {
1609
+ "accuracy": 1.0,
1610
+ "count": 99
1611
+ }
1612
+ }
1613
+ },
1614
+ "sub_M1": {
1615
+ "full_accuracy": 0.92,
1616
+ "n_examples": 100,
1617
+ "per_subtask": {
1618
+ "MD": {
1619
+ "accuracy": 0.985663082437276,
1620
+ "count": 279
1621
+ },
1622
+ "MB": {
1623
+ "accuracy": 0.9862068965517241,
1624
+ "count": 145
1625
+ },
1626
+ "ME": {
1627
+ "accuracy": 1.0,
1628
+ "count": 24
1629
+ },
1630
+ "UB": {
1631
+ "accuracy": 0.9920634920634921,
1632
+ "count": 252
1633
+ }
1634
+ }
1635
+ },
1636
+ "sub_M2": {
1637
+ "full_accuracy": 0.54,
1638
+ "n_examples": 100,
1639
+ "per_subtask": {
1640
+ "MD": {
1641
+ "accuracy": 0.9906103286384976,
1642
+ "count": 213
1643
+ },
1644
+ "MB": {
1645
+ "accuracy": 0.9823008849557522,
1646
+ "count": 113
1647
+ },
1648
+ "ME": {
1649
+ "accuracy": 1.0,
1650
+ "count": 85
1651
+ },
1652
+ "UB": {
1653
+ "accuracy": 0.7624309392265194,
1654
+ "count": 181
1655
+ },
1656
+ "UD": {
1657
+ "accuracy": 1.0,
1658
+ "count": 108
1659
+ }
1660
+ }
1661
+ },
1662
+ "sub_M3": {
1663
+ "full_accuracy": 0.22,
1664
+ "n_examples": 100,
1665
+ "per_subtask": {
1666
+ "MD": {
1667
+ "accuracy": 1.0,
1668
+ "count": 179
1669
+ },
1670
+ "MB": {
1671
+ "accuracy": 1.0,
1672
+ "count": 103
1673
+ },
1674
+ "ME": {
1675
+ "accuracy": 1.0,
1676
+ "count": 56
1677
+ },
1678
+ "UB": {
1679
+ "accuracy": 0.5570469798657718,
1680
+ "count": 149
1681
+ },
1682
+ "UD": {
1683
+ "accuracy": 0.8450704225352113,
1684
+ "count": 213
1685
+ }
1686
+ }
1687
+ },
1688
+ "sub_M4": {
1689
+ "full_accuracy": 0.02,
1690
+ "n_examples": 100,
1691
+ "per_subtask": {
1692
+ "MD": {
1693
+ "accuracy": 1.0,
1694
+ "count": 200
1695
+ },
1696
+ "MB": {
1697
+ "accuracy": 1.0,
1698
+ "count": 100
1699
+ },
1700
+ "UB": {
1701
+ "accuracy": 0.43,
1702
+ "count": 100
1703
+ },
1704
+ "UD": {
1705
+ "accuracy": 0.38333333333333336,
1706
+ "count": 300
1707
+ }
1708
+ }
1709
+ },
1710
+ "sub_M5": {
1711
+ "full_accuracy": 0.08,
1712
+ "n_examples": 100,
1713
+ "per_subtask": {
1714
+ "MD": {
1715
+ "accuracy": 1.0,
1716
+ "count": 100
1717
+ },
1718
+ "MB": {
1719
+ "accuracy": 1.0,
1720
+ "count": 100
1721
+ },
1722
+ "UB": {
1723
+ "accuracy": 0.51,
1724
+ "count": 100
1725
+ },
1726
+ "UD": {
1727
+ "accuracy": 0.4075,
1728
+ "count": 400
1729
+ }
1730
+ }
1731
+ },
1732
+ "sub_random": {
1733
+ "full_accuracy": 0.86,
1734
+ "n_examples": 200,
1735
+ "per_subtask": {
1736
+ "MD": {
1737
+ "accuracy": 0.985,
1738
+ "count": 600
1739
+ },
1740
+ "MB": {
1741
+ "accuracy": 0.9925093632958801,
1742
+ "count": 267
1743
+ },
1744
+ "ME": {
1745
+ "accuracy": 1.0,
1746
+ "count": 53
1747
+ },
1748
+ "UB": {
1749
+ "accuracy": 0.9567198177676538,
1750
+ "count": 439
1751
+ },
1752
+ "UD": {
1753
+ "accuracy": 1.0,
1754
+ "count": 41
1755
+ }
1756
+ }
1757
+ },
1758
+ "sub_B3": {
1759
+ "full_accuracy": 0.46,
1760
+ "n_examples": 100,
1761
+ "per_subtask": {
1762
+ "MD": {
1763
+ "accuracy": 1.0,
1764
+ "count": 300
1765
+ },
1766
+ "MB": {
1767
+ "accuracy": 1.0,
1768
+ "count": 100
1769
+ },
1770
+ "UB": {
1771
+ "accuracy": 0.7411167512690355,
1772
+ "count": 197
1773
+ },
1774
+ "UD": {
1775
+ "accuracy": 0.7669902912621359,
1776
+ "count": 103
1777
+ }
1778
+ }
1779
+ },
1780
+ "sub_B4": {
1781
+ "full_accuracy": 0.3,
1782
+ "n_examples": 100,
1783
+ "per_subtask": {
1784
+ "MD": {
1785
+ "accuracy": 1.0,
1786
+ "count": 200
1787
+ },
1788
+ "MB": {
1789
+ "accuracy": 1.0,
1790
+ "count": 100
1791
+ },
1792
+ "UB": {
1793
+ "accuracy": 0.7327935222672065,
1794
+ "count": 247
1795
+ },
1796
+ "UD": {
1797
+ "accuracy": 0.7450980392156863,
1798
+ "count": 153
1799
+ }
1800
+ }
1801
+ },
1802
+ "sub_B5": {
1803
+ "full_accuracy": 0.27,
1804
+ "n_examples": 100,
1805
+ "per_subtask": {
1806
+ "MD": {
1807
+ "accuracy": 1.0,
1808
+ "count": 100
1809
+ },
1810
+ "MB": {
1811
+ "accuracy": 1.0,
1812
+ "count": 100
1813
+ },
1814
+ "UB": {
1815
+ "accuracy": 0.7449664429530202,
1816
+ "count": 298
1817
+ },
1818
+ "UD": {
1819
+ "accuracy": 0.698019801980198,
1820
+ "count": 202
1821
+ }
1822
+ }
1823
+ }
1824
+ },
1825
+ "summary": {
1826
+ "overall_accuracy": 0.54125,
1827
+ "total_examples": 2400,
1828
+ "n_splits": 22
1829
+ }
1830
+ }
1831
+ }
add_sub_baseline_50K_1L3H510d/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2bfc5309917d4aa9bff45c52de66d373b6b27f50b2a5e8b3d16a116f52ff3678
3
+ size 634642298
add_sub_baseline_50K_1L3H510d/train_config.json ADDED
@@ -0,0 +1,84 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "num_rollouts": 4,
3
+ "K": 4,
4
+ "max_iterations": 2,
5
+ "memory_span_abs": 1792,
6
+ "memory_span_traj": 1792,
7
+ "temperature": 1.0,
8
+ "ar_search": false,
9
+ "response_only_abs": false,
10
+ "alpha_info_gain": 10.0,
11
+ "alpha_abs": 0.1,
12
+ "alpha_soft_zipf": 1.0,
13
+ "alpha_ortho": 0.0,
14
+ "alpha_anchor": 0.0,
15
+ "alpha_jacobi": 0.0,
16
+ "decay": 0.8,
17
+ "target_vocab_util": 0.8,
18
+ "min_abs_ppl": 0.0,
19
+ "zipf_alpha": 1.0,
20
+ "lr": 8e-05,
21
+ "emb_lr_mult": 1.0,
22
+ "weight_decay": 0.01,
23
+ "warmup_steps": 468,
24
+ "cooldown_frac": 0.4,
25
+ "max_grad_norm": 1.0,
26
+ "vq_abs_pretrain_steps": 0,
27
+ "vq_abs_pretrain_lr": 0.001,
28
+ "vq_abs_pretrain_layer": -1,
29
+ "vq_abs_pretrain_batch_size": 256,
30
+ "vq_abs_pretrain_target_vectors": 20000,
31
+ "batch_size": 64,
32
+ "gradient_accumulation_steps": 1,
33
+ "num_epochs": 20,
34
+ "emb_warmup_steps": 0,
35
+ "log_every": 50,
36
+ "eval_every": 781,
37
+ "save_every": 999999,
38
+ "eval_samples": 100,
39
+ "output_dir": "ckpt/sweep/as_baseline_50K_1L3H510d",
40
+ "eval_K": 4,
41
+ "alpha_traj": 0.0,
42
+ "corrupt_method": "shuffle",
43
+ "corrupt_ratio": 0.3,
44
+ "alpha_contrastive": 1.0,
45
+ "gamma_contrastive": 0.5,
46
+ "alpha_masked_traj": 0.0,
47
+ "mask_nl_ratio": 0.3,
48
+ "mask_nl_mode": "fixed",
49
+ "mask_nl_fixed_id": 0,
50
+ "use_ste": true,
51
+ "n_inner": 1,
52
+ "random_K": null,
53
+ "strip_suffix": null,
54
+ "compress_prefix": null,
55
+ "random_mem_span": null,
56
+ "warmup_ratio": 0.03,
57
+ "beta2": 0.999,
58
+ "seed": 42,
59
+ "n_digits": 6,
60
+ "n_layer": 1,
61
+ "n_head": 3,
62
+ "n_embd": 510,
63
+ "ops": "add_sub",
64
+ "abs_vocab": 0,
65
+ "dataset_size": 50000,
66
+ "mode": "baseline",
67
+ "device": "cuda",
68
+ "push_to_hub": true,
69
+ "no_wandb": false,
70
+ "n_params": 158584246,
71
+ "run_name": "add_sub_baseline_50K_1L3H510d",
72
+ "git_commit": "a9f060afec58a6f3f8c640208acc0795dcfd67ed",
73
+ "timestamp": "2026-04-14T02:31:53.160826+00:00",
74
+ "tokenizer": "Qwen/Qwen3-0.6B",
75
+ "dataset_repo": "thoughtworks/arithmetic-sorl-data",
76
+ "dataset_config": "add_sub_6digit",
77
+ "model_repo": "thoughtworks/arithmetic-sorl",
78
+ "trainer_version": "sft",
79
+ "wandb_run_id": "i4pa37un",
80
+ "wandb_url": "https://wandb.ai/nlp_and_interpretability/sorl-arithmetic/runs/i4pa37un",
81
+ "final_accuracy": 0.54125,
82
+ "sft_accuracy": 0.54125,
83
+ "eval_method": "ArithmeticEvaluator"
84
+ }