amirali1985 commited on
Commit
2cc8559
·
verified ·
1 Parent(s): ceebdc3

Upload add_sub_baseline_50K_2L1H128d

Browse files
add_sub_baseline_50K_2L1H128d/config.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "SorlModelWrapper"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": null,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 128,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 512,
15
+ "layer_types": [
16
+ "full_attention",
17
+ "full_attention"
18
+ ],
19
+ "max_position_embeddings": 128,
20
+ "max_window_layers": 28,
21
+ "model_type": "qwen3",
22
+ "num_attention_heads": 1,
23
+ "num_hidden_layers": 2,
24
+ "num_key_value_heads": 1,
25
+ "pad_token_id": null,
26
+ "rms_norm_eps": 1e-06,
27
+ "rope_parameters": {
28
+ "rope_theta": 10000.0,
29
+ "rope_type": "default"
30
+ },
31
+ "sliding_window": null,
32
+ "tie_word_embeddings": false,
33
+ "transformers_version": "5.5.0",
34
+ "use_cache": true,
35
+ "use_sliding_window": false,
36
+ "vocab_size": 151645
37
+ }
add_sub_baseline_50K_2L1H128d/generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "output_attentions": false,
4
+ "output_hidden_states": false,
5
+ "transformers_version": "5.5.0",
6
+ "use_cache": true
7
+ }
add_sub_baseline_50K_2L1H128d/metrics.json ADDED
@@ -0,0 +1,1831 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "history": {
3
+ "step": [
4
+ 50,
5
+ 100,
6
+ 150,
7
+ 200,
8
+ 250,
9
+ 300,
10
+ 350,
11
+ 400,
12
+ 450,
13
+ 500,
14
+ 550,
15
+ 600,
16
+ 650,
17
+ 700,
18
+ 750,
19
+ 800,
20
+ 850,
21
+ 900,
22
+ 950,
23
+ 1000,
24
+ 1050,
25
+ 1100,
26
+ 1150,
27
+ 1200,
28
+ 1250,
29
+ 1300,
30
+ 1350,
31
+ 1400,
32
+ 1450,
33
+ 1500,
34
+ 1550,
35
+ 1600,
36
+ 1650,
37
+ 1700,
38
+ 1750,
39
+ 1800,
40
+ 1850,
41
+ 1900,
42
+ 1950,
43
+ 2000,
44
+ 2050,
45
+ 2100,
46
+ 2150,
47
+ 2200,
48
+ 2250,
49
+ 2300,
50
+ 2350,
51
+ 2400,
52
+ 2450,
53
+ 2500,
54
+ 2550,
55
+ 2600,
56
+ 2650,
57
+ 2700,
58
+ 2750,
59
+ 2800,
60
+ 2850,
61
+ 2900,
62
+ 2950,
63
+ 3000,
64
+ 3050,
65
+ 3100,
66
+ 3150,
67
+ 3200,
68
+ 3250,
69
+ 3300,
70
+ 3350,
71
+ 3400,
72
+ 3450,
73
+ 3500,
74
+ 3550,
75
+ 3600,
76
+ 3650,
77
+ 3700,
78
+ 3750,
79
+ 3800,
80
+ 3850,
81
+ 3900,
82
+ 3950,
83
+ 4000,
84
+ 4050,
85
+ 4100,
86
+ 4150,
87
+ 4200,
88
+ 4250,
89
+ 4300,
90
+ 4350,
91
+ 4400,
92
+ 4450,
93
+ 4500,
94
+ 4550,
95
+ 4600,
96
+ 4650,
97
+ 4700,
98
+ 4750,
99
+ 4800,
100
+ 4850,
101
+ 4900,
102
+ 4950,
103
+ 5000,
104
+ 5050,
105
+ 5100,
106
+ 5150,
107
+ 5200,
108
+ 5250,
109
+ 5300,
110
+ 5350,
111
+ 5400,
112
+ 5450,
113
+ 5500,
114
+ 5550,
115
+ 5600,
116
+ 5650,
117
+ 5700,
118
+ 5750,
119
+ 5800,
120
+ 5850,
121
+ 5900,
122
+ 5950,
123
+ 6000,
124
+ 6050,
125
+ 6100,
126
+ 6150,
127
+ 6200,
128
+ 6250,
129
+ 6300,
130
+ 6350,
131
+ 6400,
132
+ 6450,
133
+ 6500,
134
+ 6550,
135
+ 6600,
136
+ 6650,
137
+ 6700,
138
+ 6750,
139
+ 6800,
140
+ 6850,
141
+ 6900,
142
+ 6950,
143
+ 7000,
144
+ 7050,
145
+ 7100,
146
+ 7150,
147
+ 7200,
148
+ 7250,
149
+ 7300,
150
+ 7350,
151
+ 7400,
152
+ 7450,
153
+ 7500,
154
+ 7550,
155
+ 7600,
156
+ 7650,
157
+ 7700,
158
+ 7750,
159
+ 7800,
160
+ 7850,
161
+ 7900,
162
+ 7950,
163
+ 8000,
164
+ 8050,
165
+ 8100,
166
+ 8150,
167
+ 8200,
168
+ 8250,
169
+ 8300,
170
+ 8350,
171
+ 8400,
172
+ 8450,
173
+ 8500,
174
+ 8550,
175
+ 8600,
176
+ 8650,
177
+ 8700,
178
+ 8750,
179
+ 8800,
180
+ 8850,
181
+ 8900,
182
+ 8950,
183
+ 9000,
184
+ 9050,
185
+ 9100,
186
+ 9150,
187
+ 9200,
188
+ 9250,
189
+ 9300,
190
+ 9350,
191
+ 9400,
192
+ 9450,
193
+ 9500,
194
+ 9550,
195
+ 9600,
196
+ 9650,
197
+ 9700,
198
+ 9750,
199
+ 9800,
200
+ 9850,
201
+ 9900,
202
+ 9950,
203
+ 10000,
204
+ 10050,
205
+ 10100,
206
+ 10150,
207
+ 10200,
208
+ 10250,
209
+ 10300,
210
+ 10350,
211
+ 10400,
212
+ 10450,
213
+ 10500,
214
+ 10550,
215
+ 10600,
216
+ 10650,
217
+ 10700,
218
+ 10750,
219
+ 10800,
220
+ 10850,
221
+ 10900,
222
+ 10950,
223
+ 11000,
224
+ 11050,
225
+ 11100,
226
+ 11150,
227
+ 11200,
228
+ 11250,
229
+ 11300,
230
+ 11350,
231
+ 11400,
232
+ 11450,
233
+ 11500,
234
+ 11550,
235
+ 11600,
236
+ 11650,
237
+ 11700,
238
+ 11750,
239
+ 11800,
240
+ 11850,
241
+ 11900,
242
+ 11950,
243
+ 12000,
244
+ 12050,
245
+ 12100,
246
+ 12150,
247
+ 12200,
248
+ 12250,
249
+ 12300,
250
+ 12350,
251
+ 12400,
252
+ 12450,
253
+ 12500,
254
+ 12550,
255
+ 12600,
256
+ 12650,
257
+ 12700,
258
+ 12750,
259
+ 12800,
260
+ 12850,
261
+ 12900,
262
+ 12950,
263
+ 13000,
264
+ 13050,
265
+ 13100,
266
+ 13150,
267
+ 13200,
268
+ 13250,
269
+ 13300,
270
+ 13350,
271
+ 13400,
272
+ 13450,
273
+ 13500,
274
+ 13550,
275
+ 13600,
276
+ 13650,
277
+ 13700,
278
+ 13750,
279
+ 13800,
280
+ 13850,
281
+ 13900,
282
+ 13950,
283
+ 14000,
284
+ 14050,
285
+ 14100,
286
+ 14150,
287
+ 14200,
288
+ 14250,
289
+ 14300,
290
+ 14350,
291
+ 14400,
292
+ 14450,
293
+ 14500,
294
+ 14550,
295
+ 14600,
296
+ 14650,
297
+ 14700,
298
+ 14750,
299
+ 14800,
300
+ 14850,
301
+ 14900,
302
+ 14950,
303
+ 15000,
304
+ 15050,
305
+ 15100,
306
+ 15150,
307
+ 15200,
308
+ 15250,
309
+ 15300,
310
+ 15350,
311
+ 15400,
312
+ 15450,
313
+ 15500,
314
+ 15550,
315
+ 15600
316
+ ],
317
+ "loss": [
318
+ 11.93499755859375,
319
+ 11.65730094909668,
320
+ 11.293171882629395,
321
+ 10.867568969726562,
322
+ 10.623129844665527,
323
+ 10.355392456054688,
324
+ 10.099054336547852,
325
+ 9.930326461791992,
326
+ 9.612565994262695,
327
+ 9.24365234375,
328
+ 9.00301456451416,
329
+ 8.693142890930176,
330
+ 8.47545051574707,
331
+ 8.173990249633789,
332
+ 7.881795406341553,
333
+ 7.611324310302734,
334
+ 7.3448920249938965,
335
+ 7.075301170349121,
336
+ 6.706723213195801,
337
+ 6.513725280761719,
338
+ 6.21718168258667,
339
+ 5.842379570007324,
340
+ 5.690333366394043,
341
+ 5.309576511383057,
342
+ 5.099353313446045,
343
+ 4.7732625007629395,
344
+ 4.531905651092529,
345
+ 4.2372260093688965,
346
+ 4.069974899291992,
347
+ 3.8053746223449707,
348
+ 3.5196328163146973,
349
+ 3.335747241973877,
350
+ 3.109636068344116,
351
+ 3.0120599269866943,
352
+ 2.8363168239593506,
353
+ 2.676023483276367,
354
+ 2.6105294227600098,
355
+ 2.5148777961730957,
356
+ 2.3828721046447754,
357
+ 2.345553159713745,
358
+ 2.2795569896698,
359
+ 2.2441999912261963,
360
+ 2.212557792663574,
361
+ 2.105844497680664,
362
+ 2.151437520980835,
363
+ 2.183159351348877,
364
+ 2.157996416091919,
365
+ 2.0764122009277344,
366
+ 2.0949976444244385,
367
+ 2.0614359378814697,
368
+ 2.0152029991149902,
369
+ 2.042832374572754,
370
+ 1.985764741897583,
371
+ 2.0169003009796143,
372
+ 1.9234191179275513,
373
+ 1.98187255859375,
374
+ 1.9020922183990479,
375
+ 1.947366714477539,
376
+ 1.912832498550415,
377
+ 1.9788919687271118,
378
+ 1.8701711893081665,
379
+ 1.9873000383377075,
380
+ 1.8384500741958618,
381
+ 1.864878535270691,
382
+ 1.8773438930511475,
383
+ 1.814258337020874,
384
+ 1.8422654867172241,
385
+ 1.7905521392822266,
386
+ 1.9188811779022217,
387
+ 1.9195749759674072,
388
+ 1.840183973312378,
389
+ 1.9478784799575806,
390
+ 1.7651938199996948,
391
+ 1.8026297092437744,
392
+ 1.8211473226547241,
393
+ 1.6967977285385132,
394
+ 1.774262547492981,
395
+ 1.8092931509017944,
396
+ 1.7626827955245972,
397
+ 1.7678852081298828,
398
+ 1.7257096767425537,
399
+ 1.6912577152252197,
400
+ 1.705618143081665,
401
+ 1.7209644317626953,
402
+ 1.6141128540039062,
403
+ 1.5833446979522705,
404
+ 1.6016104221343994,
405
+ 1.6115186214447021,
406
+ 1.4938329458236694,
407
+ 1.5911413431167603,
408
+ 1.4935094118118286,
409
+ 1.4679266214370728,
410
+ 1.4957019090652466,
411
+ 1.446588158607483,
412
+ 1.3904730081558228,
413
+ 1.4148086309432983,
414
+ 1.4284785985946655,
415
+ 1.2719846963882446,
416
+ 1.2865592241287231,
417
+ 1.2901942729949951,
418
+ 1.2603648900985718,
419
+ 1.305459976196289,
420
+ 1.1517776250839233,
421
+ 1.1661006212234497,
422
+ 1.1481062173843384,
423
+ 1.1654253005981445,
424
+ 1.143684983253479,
425
+ 1.1574296951293945,
426
+ 1.104051113128662,
427
+ 1.1066854000091553,
428
+ 1.0712209939956665,
429
+ 1.0240689516067505,
430
+ 1.0762532949447632,
431
+ 0.9777925610542297,
432
+ 1.0075340270996094,
433
+ 1.0130956172943115,
434
+ 0.9441969990730286,
435
+ 0.9728404879570007,
436
+ 0.9550210237503052,
437
+ 0.9782089591026306,
438
+ 0.9868655204772949,
439
+ 0.9737717509269714,
440
+ 0.9871805906295776,
441
+ 0.8989226222038269,
442
+ 0.9575096368789673,
443
+ 0.9029489159584045,
444
+ 0.8649100065231323,
445
+ 0.8886522650718689,
446
+ 0.8820281028747559,
447
+ 0.8742324113845825,
448
+ 0.88325035572052,
449
+ 0.8407949805259705,
450
+ 0.8328596353530884,
451
+ 0.8495661616325378,
452
+ 0.7535262107849121,
453
+ 0.7798505425453186,
454
+ 0.7734178900718689,
455
+ 0.8000691533088684,
456
+ 0.7600011825561523,
457
+ 0.7487917542457581,
458
+ 0.7534374594688416,
459
+ 0.7358126044273376,
460
+ 0.7776135206222534,
461
+ 0.7900133728981018,
462
+ 0.726458728313446,
463
+ 0.7606948018074036,
464
+ 0.7421143651008606,
465
+ 0.7261181473731995,
466
+ 0.7051188349723816,
467
+ 0.7383636236190796,
468
+ 0.6680508852005005,
469
+ 0.680087685585022,
470
+ 0.7639477849006653,
471
+ 0.6837146878242493,
472
+ 0.6702830195426941,
473
+ 0.667018473148346,
474
+ 0.6458178758621216,
475
+ 0.626135528087616,
476
+ 0.6087480187416077,
477
+ 0.6776902079582214,
478
+ 0.6297626495361328,
479
+ 0.6746311187744141,
480
+ 0.6392488479614258,
481
+ 0.6054442524909973,
482
+ 0.6305686235427856,
483
+ 0.65091472864151,
484
+ 0.6684236526489258,
485
+ 0.630896270275116,
486
+ 0.5898188352584839,
487
+ 0.5816236138343811,
488
+ 0.6031948924064636,
489
+ 0.5798562169075012,
490
+ 0.5800939202308655,
491
+ 0.6128515601158142,
492
+ 0.5971966981887817,
493
+ 0.5636686086654663,
494
+ 0.6101219058036804,
495
+ 0.5626725554466248,
496
+ 0.5759359002113342,
497
+ 0.5579383969306946,
498
+ 0.5766159892082214,
499
+ 0.563798725605011,
500
+ 0.5380284190177917,
501
+ 0.5644034147262573,
502
+ 0.5314499735832214,
503
+ 0.549543559551239,
504
+ 0.5258645415306091,
505
+ 0.5414046049118042,
506
+ 0.5449110269546509,
507
+ 0.5177078247070312,
508
+ 0.5357903242111206,
509
+ 0.5383039116859436,
510
+ 0.5342908501625061,
511
+ 0.5052288770675659,
512
+ 0.4803391993045807,
513
+ 0.5331531167030334,
514
+ 0.5584177374839783,
515
+ 0.5099272131919861,
516
+ 0.5030084252357483,
517
+ 0.5107883810997009,
518
+ 0.5074604749679565,
519
+ 0.474060595035553,
520
+ 0.5217799544334412,
521
+ 0.5024420022964478,
522
+ 0.5018254518508911,
523
+ 0.48899394273757935,
524
+ 0.5179036855697632,
525
+ 0.4651453495025635,
526
+ 0.4600445628166199,
527
+ 0.46727508306503296,
528
+ 0.4327971637248993,
529
+ 0.4529948830604553,
530
+ 0.46315622329711914,
531
+ 0.48899713158607483,
532
+ 0.4627113342285156,
533
+ 0.45527729392051697,
534
+ 0.47023242712020874,
535
+ 0.4694068729877472,
536
+ 0.4536097049713135,
537
+ 0.46996352076530457,
538
+ 0.4478769302368164,
539
+ 0.5023384690284729,
540
+ 0.4848630130290985,
541
+ 0.44978800415992737,
542
+ 0.4636957347393036,
543
+ 0.46273866295814514,
544
+ 0.4170573651790619,
545
+ 0.45214805006980896,
546
+ 0.4561144709587097,
547
+ 0.4628432095050812,
548
+ 0.46510520577430725,
549
+ 0.5094900131225586,
550
+ 0.4306984841823578,
551
+ 0.4236433207988739,
552
+ 0.41763633489608765,
553
+ 0.4181102216243744,
554
+ 0.41568782925605774,
555
+ 0.43321552872657776,
556
+ 0.42102813720703125,
557
+ 0.44086867570877075,
558
+ 0.4437388777732849,
559
+ 0.42119714617729187,
560
+ 0.4386158585548401,
561
+ 0.4230058491230011,
562
+ 0.42731285095214844,
563
+ 0.43081793189048767,
564
+ 0.40430232882499695,
565
+ 0.39149078726768494,
566
+ 0.4208660125732422,
567
+ 0.41456151008605957,
568
+ 0.4628043472766876,
569
+ 0.45343923568725586,
570
+ 0.4034596383571625,
571
+ 0.43333905935287476,
572
+ 0.4089009463787079,
573
+ 0.428451269865036,
574
+ 0.44539371132850647,
575
+ 0.3964701294898987,
576
+ 0.363548219203949,
577
+ 0.41381707787513733,
578
+ 0.41168859601020813,
579
+ 0.3732242286205292,
580
+ 0.4289732575416565,
581
+ 0.4374411404132843,
582
+ 0.4020676016807556,
583
+ 0.39040374755859375,
584
+ 0.435672789812088,
585
+ 0.4191468358039856,
586
+ 0.43827033042907715,
587
+ 0.42149630188941956,
588
+ 0.4028854966163635,
589
+ 0.42512935400009155,
590
+ 0.3935700058937073,
591
+ 0.4023810029029846,
592
+ 0.4407925307750702,
593
+ 0.4217481017112732,
594
+ 0.4327377676963806,
595
+ 0.3848411738872528,
596
+ 0.38072606921195984,
597
+ 0.42019957304000854,
598
+ 0.4077237546443939,
599
+ 0.4318618178367615,
600
+ 0.41669175028800964,
601
+ 0.42001357674598694,
602
+ 0.41785627603530884,
603
+ 0.43324536085128784,
604
+ 0.44770950078964233,
605
+ 0.40982261300086975,
606
+ 0.41195228695869446,
607
+ 0.4122852385044098,
608
+ 0.4267185628414154,
609
+ 0.3932749927043915,
610
+ 0.42152076959609985,
611
+ 0.40566104650497437,
612
+ 0.3950228691101074,
613
+ 0.41320866346359253,
614
+ 0.3923717141151428,
615
+ 0.4263770282268524,
616
+ 0.399299293756485,
617
+ 0.37513676285743713,
618
+ 0.3975963592529297,
619
+ 0.3869399428367615,
620
+ 0.3949268162250519,
621
+ 0.43800851702690125,
622
+ 0.38830724358558655,
623
+ 0.4024786055088043,
624
+ 0.3731174170970917,
625
+ 0.3714914321899414,
626
+ 0.39834064245224,
627
+ 0.39818379282951355,
628
+ 0.39613842964172363,
629
+ 0.3969874978065491
630
+ ],
631
+ "base_loss": [
632
+ 11.93499755859375,
633
+ 11.65730094909668,
634
+ 11.293171882629395,
635
+ 10.867568969726562,
636
+ 10.623129844665527,
637
+ 10.355392456054688,
638
+ 10.099054336547852,
639
+ 9.930326461791992,
640
+ 9.612565994262695,
641
+ 9.24365234375,
642
+ 9.00301456451416,
643
+ 8.693142890930176,
644
+ 8.47545051574707,
645
+ 8.173990249633789,
646
+ 7.881795406341553,
647
+ 7.611324310302734,
648
+ 7.3448920249938965,
649
+ 7.075301170349121,
650
+ 6.706723213195801,
651
+ 6.513725280761719,
652
+ 6.21718168258667,
653
+ 5.842379570007324,
654
+ 5.690333366394043,
655
+ 5.309576511383057,
656
+ 5.099353313446045,
657
+ 4.7732625007629395,
658
+ 4.531905651092529,
659
+ 4.2372260093688965,
660
+ 4.069974899291992,
661
+ 3.8053746223449707,
662
+ 3.5196328163146973,
663
+ 3.335747241973877,
664
+ 3.109636068344116,
665
+ 3.0120599269866943,
666
+ 2.8363168239593506,
667
+ 2.676023483276367,
668
+ 2.6105294227600098,
669
+ 2.5148777961730957,
670
+ 2.3828721046447754,
671
+ 2.345553159713745,
672
+ 2.2795569896698,
673
+ 2.2441999912261963,
674
+ 2.212557792663574,
675
+ 2.105844497680664,
676
+ 2.151437520980835,
677
+ 2.183159351348877,
678
+ 2.157996416091919,
679
+ 2.0764122009277344,
680
+ 2.0949976444244385,
681
+ 2.0614359378814697,
682
+ 2.0152029991149902,
683
+ 2.042832374572754,
684
+ 1.985764741897583,
685
+ 2.0169003009796143,
686
+ 1.9234191179275513,
687
+ 1.98187255859375,
688
+ 1.9020922183990479,
689
+ 1.947366714477539,
690
+ 1.912832498550415,
691
+ 1.9788919687271118,
692
+ 1.8701711893081665,
693
+ 1.9873000383377075,
694
+ 1.8384500741958618,
695
+ 1.864878535270691,
696
+ 1.8773438930511475,
697
+ 1.814258337020874,
698
+ 1.8422654867172241,
699
+ 1.7905521392822266,
700
+ 1.9188811779022217,
701
+ 1.9195749759674072,
702
+ 1.840183973312378,
703
+ 1.9478784799575806,
704
+ 1.7651938199996948,
705
+ 1.8026297092437744,
706
+ 1.8211473226547241,
707
+ 1.6967977285385132,
708
+ 1.774262547492981,
709
+ 1.8092931509017944,
710
+ 1.7626827955245972,
711
+ 1.7678852081298828,
712
+ 1.7257096767425537,
713
+ 1.6912577152252197,
714
+ 1.705618143081665,
715
+ 1.7209644317626953,
716
+ 1.6141128540039062,
717
+ 1.5833446979522705,
718
+ 1.6016104221343994,
719
+ 1.6115186214447021,
720
+ 1.4938329458236694,
721
+ 1.5911413431167603,
722
+ 1.4935094118118286,
723
+ 1.4679266214370728,
724
+ 1.4957019090652466,
725
+ 1.446588158607483,
726
+ 1.3904730081558228,
727
+ 1.4148086309432983,
728
+ 1.4284785985946655,
729
+ 1.2719846963882446,
730
+ 1.2865592241287231,
731
+ 1.2901942729949951,
732
+ 1.2603648900985718,
733
+ 1.305459976196289,
734
+ 1.1517776250839233,
735
+ 1.1661006212234497,
736
+ 1.1481062173843384,
737
+ 1.1654253005981445,
738
+ 1.143684983253479,
739
+ 1.1574296951293945,
740
+ 1.104051113128662,
741
+ 1.1066854000091553,
742
+ 1.0712209939956665,
743
+ 1.0240689516067505,
744
+ 1.0762532949447632,
745
+ 0.9777925610542297,
746
+ 1.0075340270996094,
747
+ 1.0130956172943115,
748
+ 0.9441969990730286,
749
+ 0.9728404879570007,
750
+ 0.9550210237503052,
751
+ 0.9782089591026306,
752
+ 0.9868655204772949,
753
+ 0.9737717509269714,
754
+ 0.9871805906295776,
755
+ 0.8989226222038269,
756
+ 0.9575096368789673,
757
+ 0.9029489159584045,
758
+ 0.8649100065231323,
759
+ 0.8886522650718689,
760
+ 0.8820281028747559,
761
+ 0.8742324113845825,
762
+ 0.88325035572052,
763
+ 0.8407949805259705,
764
+ 0.8328596353530884,
765
+ 0.8495661616325378,
766
+ 0.7535262107849121,
767
+ 0.7798505425453186,
768
+ 0.7734178900718689,
769
+ 0.8000691533088684,
770
+ 0.7600011825561523,
771
+ 0.7487917542457581,
772
+ 0.7534374594688416,
773
+ 0.7358126044273376,
774
+ 0.7776135206222534,
775
+ 0.7900133728981018,
776
+ 0.726458728313446,
777
+ 0.7606948018074036,
778
+ 0.7421143651008606,
779
+ 0.7261181473731995,
780
+ 0.7051188349723816,
781
+ 0.7383636236190796,
782
+ 0.6680508852005005,
783
+ 0.680087685585022,
784
+ 0.7639477849006653,
785
+ 0.6837146878242493,
786
+ 0.6702830195426941,
787
+ 0.667018473148346,
788
+ 0.6458178758621216,
789
+ 0.626135528087616,
790
+ 0.6087480187416077,
791
+ 0.6776902079582214,
792
+ 0.6297626495361328,
793
+ 0.6746311187744141,
794
+ 0.6392488479614258,
795
+ 0.6054442524909973,
796
+ 0.6305686235427856,
797
+ 0.65091472864151,
798
+ 0.6684236526489258,
799
+ 0.630896270275116,
800
+ 0.5898188352584839,
801
+ 0.5816236138343811,
802
+ 0.6031948924064636,
803
+ 0.5798562169075012,
804
+ 0.5800939202308655,
805
+ 0.6128515601158142,
806
+ 0.5971966981887817,
807
+ 0.5636686086654663,
808
+ 0.6101219058036804,
809
+ 0.5626725554466248,
810
+ 0.5759359002113342,
811
+ 0.5579383969306946,
812
+ 0.5766159892082214,
813
+ 0.563798725605011,
814
+ 0.5380284190177917,
815
+ 0.5644034147262573,
816
+ 0.5314499735832214,
817
+ 0.549543559551239,
818
+ 0.5258645415306091,
819
+ 0.5414046049118042,
820
+ 0.5449110269546509,
821
+ 0.5177078247070312,
822
+ 0.5357903242111206,
823
+ 0.5383039116859436,
824
+ 0.5342908501625061,
825
+ 0.5052288770675659,
826
+ 0.4803391993045807,
827
+ 0.5331531167030334,
828
+ 0.5584177374839783,
829
+ 0.5099272131919861,
830
+ 0.5030084252357483,
831
+ 0.5107883810997009,
832
+ 0.5074604749679565,
833
+ 0.474060595035553,
834
+ 0.5217799544334412,
835
+ 0.5024420022964478,
836
+ 0.5018254518508911,
837
+ 0.48899394273757935,
838
+ 0.5179036855697632,
839
+ 0.4651453495025635,
840
+ 0.4600445628166199,
841
+ 0.46727508306503296,
842
+ 0.4327971637248993,
843
+ 0.4529948830604553,
844
+ 0.46315622329711914,
845
+ 0.48899713158607483,
846
+ 0.4627113342285156,
847
+ 0.45527729392051697,
848
+ 0.47023242712020874,
849
+ 0.4694068729877472,
850
+ 0.4536097049713135,
851
+ 0.46996352076530457,
852
+ 0.4478769302368164,
853
+ 0.5023384690284729,
854
+ 0.4848630130290985,
855
+ 0.44978800415992737,
856
+ 0.4636957347393036,
857
+ 0.46273866295814514,
858
+ 0.4170573651790619,
859
+ 0.45214805006980896,
860
+ 0.4561144709587097,
861
+ 0.4628432095050812,
862
+ 0.46510520577430725,
863
+ 0.5094900131225586,
864
+ 0.4306984841823578,
865
+ 0.4236433207988739,
866
+ 0.41763633489608765,
867
+ 0.4181102216243744,
868
+ 0.41568782925605774,
869
+ 0.43321552872657776,
870
+ 0.42102813720703125,
871
+ 0.44086867570877075,
872
+ 0.4437388777732849,
873
+ 0.42119714617729187,
874
+ 0.4386158585548401,
875
+ 0.4230058491230011,
876
+ 0.42731285095214844,
877
+ 0.43081793189048767,
878
+ 0.40430232882499695,
879
+ 0.39149078726768494,
880
+ 0.4208660125732422,
881
+ 0.41456151008605957,
882
+ 0.4628043472766876,
883
+ 0.45343923568725586,
884
+ 0.4034596383571625,
885
+ 0.43333905935287476,
886
+ 0.4089009463787079,
887
+ 0.428451269865036,
888
+ 0.44539371132850647,
889
+ 0.3964701294898987,
890
+ 0.363548219203949,
891
+ 0.41381707787513733,
892
+ 0.41168859601020813,
893
+ 0.3732242286205292,
894
+ 0.4289732575416565,
895
+ 0.4374411404132843,
896
+ 0.4020676016807556,
897
+ 0.39040374755859375,
898
+ 0.435672789812088,
899
+ 0.4191468358039856,
900
+ 0.43827033042907715,
901
+ 0.42149630188941956,
902
+ 0.4028854966163635,
903
+ 0.42512935400009155,
904
+ 0.3935700058937073,
905
+ 0.4023810029029846,
906
+ 0.4407925307750702,
907
+ 0.4217481017112732,
908
+ 0.4327377676963806,
909
+ 0.3848411738872528,
910
+ 0.38072606921195984,
911
+ 0.42019957304000854,
912
+ 0.4077237546443939,
913
+ 0.4318618178367615,
914
+ 0.41669175028800964,
915
+ 0.42001357674598694,
916
+ 0.41785627603530884,
917
+ 0.43324536085128784,
918
+ 0.44770950078964233,
919
+ 0.40982261300086975,
920
+ 0.41195228695869446,
921
+ 0.4122852385044098,
922
+ 0.4267185628414154,
923
+ 0.3932749927043915,
924
+ 0.42152076959609985,
925
+ 0.40566104650497437,
926
+ 0.3950228691101074,
927
+ 0.41320866346359253,
928
+ 0.3923717141151428,
929
+ 0.4263770282268524,
930
+ 0.399299293756485,
931
+ 0.37513676285743713,
932
+ 0.3975963592529297,
933
+ 0.3869399428367615,
934
+ 0.3949268162250519,
935
+ 0.43800851702690125,
936
+ 0.38830724358558655,
937
+ 0.4024786055088043,
938
+ 0.3731174170970917,
939
+ 0.3714914321899414,
940
+ 0.39834064245224,
941
+ 0.39818379282951355,
942
+ 0.39613842964172363,
943
+ 0.3969874978065491
944
+ ],
945
+ "lr": [
946
+ 2.0940170940170946e-06,
947
+ 4.230769230769231e-06,
948
+ 6.367521367521369e-06,
949
+ 8.504273504273505e-06,
950
+ 1.0641025641025641e-05,
951
+ 1.2777777777777779e-05,
952
+ 1.4914529914529916e-05,
953
+ 1.7051282051282053e-05,
954
+ 1.918803418803419e-05,
955
+ 1.999979398161512e-05,
956
+ 1.999859348639149e-05,
957
+ 1.9996321251961762e-05,
958
+ 1.999297752188447e-05,
959
+ 1.998856265457068e-05,
960
+ 1.9983077123245597e-05,
961
+ 1.997652151589782e-05,
962
+ 1.996889653521632e-05,
963
+ 1.996020299851513e-05,
964
+ 1.9950441837645735e-05,
965
+ 1.9939614098897168e-05,
966
+ 1.9927720942883887e-05,
967
+ 1.991476364442136e-05,
968
+ 1.99007435923894e-05,
969
+ 1.988566228958333e-05,
970
+ 1.9869521352552867e-05,
971
+ 1.985232251142886e-05,
972
+ 1.9834067609737843e-05,
973
+ 1.9814758604204404e-05,
974
+ 1.9794397564541483e-05,
975
+ 1.97729866732285e-05,
976
+ 1.9750528225277415e-05,
977
+ 1.9727024627986732e-05,
978
+ 1.9702478400683477e-05,
979
+ 1.9676892174453123e-05,
980
+ 1.9650268691857595e-05,
981
+ 1.962261080664129e-05,
982
+ 1.9593921483425182e-05,
983
+ 1.956420379738904e-05,
984
+ 1.9533460933941827e-05,
985
+ 1.9501696188380235e-05,
986
+ 1.9468912965535474e-05,
987
+ 1.9435114779408318e-05,
988
+ 1.940030525279244e-05,
989
+ 1.9364488116886072e-05,
990
+ 1.932766721089209e-05,
991
+ 1.9289846481606466e-05,
992
+ 1.9251029982995232e-05,
993
+ 1.9211221875759945e-05,
994
+ 1.9170426426891683e-05,
995
+ 1.912864800921369e-05,
996
+ 1.9085891100912644e-05,
997
+ 1.9042160285058658e-05,
998
+ 1.899746024911402e-05,
999
+ 1.8951795784430738e-05,
1000
+ 1.8905171785736978e-05,
1001
+ 1.885759325061239e-05,
1002
+ 1.8809065278952432e-05,
1003
+ 1.87595930724217e-05,
1004
+ 1.8709181933896388e-05,
1005
+ 1.8657837266895868e-05,
1006
+ 1.8605564575003493e-05,
1007
+ 1.8552369461276668e-05,
1008
+ 1.8498257627646272e-05,
1009
+ 1.8443234874305476e-05,
1010
+ 1.8387307099088017e-05,
1011
+ 1.833048029683601e-05,
1012
+ 1.8272760558757396e-05,
1013
+ 1.821415407177299e-05,
1014
+ 1.8154667117853353e-05,
1015
+ 1.8094306073345396e-05,
1016
+ 1.8033077408288934e-05,
1017
+ 1.7970987685723155e-05,
1018
+ 1.7908043560983138e-05,
1019
+ 1.7844251780986472e-05,
1020
+ 1.7779619183510068e-05,
1021
+ 1.771415269645721e-05,
1022
+ 1.764785933711498e-05,
1023
+ 1.758074621140207e-05,
1024
+ 1.7512820513107095e-05,
1025
+ 1.744408952311752e-05,
1026
+ 1.737456060863922e-05,
1027
+ 1.7304241222406788e-05,
1028
+ 1.7233138901884704e-05,
1029
+ 1.716126126845937e-05,
1030
+ 1.7088616026622223e-05,
1031
+ 1.7015210963143854e-05,
1032
+ 1.6941053946239395e-05,
1033
+ 1.686615292472509e-05,
1034
+ 1.6790515927166305e-05,
1035
+ 1.6714151061016936e-05,
1036
+ 1.6637066511750382e-05,
1037
+ 1.6559270541982156e-05,
1038
+ 1.6480771490584218e-05,
1039
+ 1.6401577771791145e-05,
1040
+ 1.632169787429821e-05,
1041
+ 1.624114036035151e-05,
1042
+ 1.6159913864830143e-05,
1043
+ 1.6078027094320688e-05,
1044
+ 1.5995488826183933e-05,
1045
+ 1.5912307907614047e-05,
1046
+ 1.5828493254690254e-05,
1047
+ 1.5744053851421125e-05,
1048
+ 1.565899874878159e-05,
1049
+ 1.5573337063742783e-05,
1050
+ 1.5487077978294797e-05,
1051
+ 1.5400230738462467e-05,
1052
+ 1.5312804653314325e-05,
1053
+ 1.5224809093964728e-05,
1054
+ 1.513625349256942e-05,
1055
+ 1.5047147341314481e-05,
1056
+ 1.4957500191398879e-05,
1057
+ 1.486732165201069e-05,
1058
+ 1.4776621389297094e-05,
1059
+ 1.4685409125328267e-05,
1060
+ 1.4593694637055285e-05,
1061
+ 1.4501487755262145e-05,
1062
+ 1.4408798363512017e-05,
1063
+ 1.4315636397087825e-05,
1064
+ 1.4222011841927294e-05,
1065
+ 1.4127934733552578e-05,
1066
+ 1.4033415155994556e-05,
1067
+ 1.393846324071193e-05,
1068
+ 1.384308916550525e-05,
1069
+ 1.3747303153425972e-05,
1070
+ 1.365111547168064e-05,
1071
+ 1.3554536430530378e-05,
1072
+ 1.3457576382185727e-05,
1073
+ 1.3360245719697006e-05,
1074
+ 1.3262554875840292e-05,
1075
+ 1.3164514321999147e-05,
1076
+ 1.306613456704219e-05,
1077
+ 1.2967426156196665e-05,
1078
+ 1.2868399669918123e-05,
1079
+ 1.2769065722756287e-05,
1080
+ 1.2669434962217311e-05,
1081
+ 1.2569518067622477e-05,
1082
+ 1.246932574896349e-05,
1083
+ 1.2368868745754483e-05,
1084
+ 1.2268157825880862e-05,
1085
+ 1.2167203784445096e-05,
1086
+ 1.2066017442609627e-05,
1087
+ 1.1964609646436931e-05,
1088
+ 1.1862991265726958e-05,
1089
+ 1.1761173192851999e-05,
1090
+ 1.1659166341589152e-05,
1091
+ 1.1556981645950483e-05,
1092
+ 1.145463005901101e-05,
1093
+ 1.1352122551734668e-05,
1094
+ 1.1249470111798338e-05,
1095
+ 1.114668374241408e-05,
1096
+ 1.1043774461149727e-05,
1097
+ 1.0940753298747904e-05,
1098
+ 1.0837631297943672e-05,
1099
+ 1.0734419512280851e-05,
1100
+ 1.0631129004927213e-05,
1101
+ 1.0527770847488631e-05,
1102
+ 1.0424356118822316e-05,
1103
+ 1.0320895903849308e-05,
1104
+ 1.0217401292366253e-05,
1105
+ 1.0113883377856754e-05,
1106
+ 1.0010353256302219e-05,
1107
+ 9.906822024992524e-06,
1108
+ 9.803300781336502e-06,
1109
+ 9.69980062167242e-06,
1110
+ 9.596332640078565e-06,
1111
+ 9.492907927184097e-06,
1112
+ 9.389537568980247e-06,
1113
+ 9.286232645632011e-06,
1114
+ 9.183004230290502e-06,
1115
+ 9.07986338790601e-06,
1116
+ 8.976821174041971e-06,
1117
+ 8.87388863368992e-06,
1118
+ 8.771076800085607e-06,
1119
+ 8.668396693526353e-06,
1120
+ 8.565859320189762e-06,
1121
+ 8.463475670954042e-06,
1122
+ 8.361256720219845e-06,
1123
+ 8.259213424733964e-06,
1124
+ 8.157356722414882e-06,
1125
+ 8.055697531180345e-06,
1126
+ 7.954246747777093e-06,
1127
+ 7.853015246612821e-06,
1128
+ 7.752013878590598e-06,
1129
+ 7.651253469945752e-06,
1130
+ 7.550744821085403e-06,
1131
+ 7.450498705430804e-06,
1132
+ 7.350525868262532e-06,
1133
+ 7.2508370255687285e-06,
1134
+ 7.151442862896429e-06,
1135
+ 7.052354034206236e-06,
1136
+ 6.953581160730298e-06,
1137
+ 6.85513482983384e-06,
1138
+ 6.757025593880321e-06,
1139
+ 6.659263969100328e-06,
1140
+ 6.561860434464354e-06,
1141
+ 6.464825430559565e-06,
1142
+ 6.368169358470702e-06,
1143
+ 6.271902578665173e-06,
1144
+ 6.176035409882536e-06,
1145
+ 6.080578128028447e-06,
1146
+ 5.985540965073198e-06,
1147
+ 5.890934107954947e-06,
1148
+ 5.796767697487813e-06,
1149
+ 5.703051827274871e-06,
1150
+ 5.609796542626242e-06,
1151
+ 5.517011839482345e-06,
1152
+ 5.424707663342432e-06,
1153
+ 5.332893908198554e-06,
1154
+ 5.241580415475027e-06,
1155
+ 5.150776972973535e-06,
1156
+ 5.060493313824002e-06,
1157
+ 4.970739115441276e-06,
1158
+ 4.881523998487849e-06,
1159
+ 4.792857525842624e-06,
1160
+ 4.704749201575858e-06,
1161
+ 4.617208469930443e-06,
1162
+ 4.530244714309592e-06,
1163
+ 4.443867256271036e-06,
1164
+ 4.358085354527858e-06,
1165
+ 4.272908203956053e-06,
1166
+ 4.1883449346089565e-06,
1167
+ 4.104404610738569e-06,
1168
+ 4.0210962298240175e-06,
1169
+ 3.93842872160708e-06,
1170
+ 3.856410947135043e-06,
1171
+ 3.7750516978108685e-06,
1172
+ 3.694359694450883e-06,
1173
+ 3.614343586349991e-06,
1174
+ 3.5350119503545455e-06,
1175
+ 3.4563732899430336e-06,
1176
+ 3.378436034314582e-06,
1177
+ 3.3012085374854407e-06,
1178
+ 3.2246990773935283e-06,
1179
+ 3.1489158550111233e-06,
1180
+ 3.073866993465814e-06,
1181
+ 2.9995605371697877e-06,
1182
+ 2.9260044509575558e-06,
1183
+ 2.8532066192322196e-06,
1184
+ 2.781174845120328e-06,
1185
+ 2.7099168496354955e-06,
1186
+ 2.6394402708507826e-06,
1187
+ 2.569752663079973e-06,
1188
+ 2.5008614960678348e-06,
1189
+ 2.4327741541894557e-06,
1190
+ 2.3654979356587137e-06,
1191
+ 2.2990400517459866e-06,
1192
+ 2.2334076260051872e-06,
1193
+ 2.168607693510195e-06,
1194
+ 2.1046472001007667e-06,
1195
+ 2.0415330016380386e-06,
1196
+ 1.9792718632696296e-06,
1197
+ 1.9178704587045096e-06,
1198
+ 1.857335369497637e-06,
1199
+ 1.7976730843445e-06,
1200
+ 1.7388899983856034e-06,
1201
+ 1.6809924125209575e-06,
1202
+ 1.6239865327347171e-06,
1203
+ 1.567878469429952e-06,
1204
+ 1.5126742367736857e-06,
1205
+ 1.4583797520522402e-06,
1206
+ 1.4050008350369692e-06,
1207
+ 1.352543207360446e-06,
1208
+ 1.3010124919031519e-06,
1209
+ 1.2504142121907936e-06,
1210
+ 1.2007537918022173e-06,
1211
+ 1.1520365537880651e-06,
1212
+ 1.104267720100214e-06,
1213
+ 1.057452411032025e-06,
1214
+ 1.0115956446695252e-06,
1215
+ 9.667023363534933e-07,
1216
+ 9.227772981526173e-07,
1217
+ 8.798252383476802e-07,
1218
+ 8.378507609268871e-07,
1219
+ 7.968583650923678e-07,
1220
+ 7.568524447779136e-07,
1221
+ 7.178372881779871e-07,
1222
+ 6.798170772880908e-07,
1223
+ 6.427958874564933e-07,
1224
+ 6.067776869473951e-07,
1225
+ 5.717663365155768e-07,
1226
+ 5.377655889925725e-07,
1227
+ 5.047790888844018e-07,
1228
+ 4.7281037198092295e-07,
1229
+ 4.4186286497683193e-07,
1230
+ 4.119398851043621e-07,
1231
+ 3.8304463977770654e-07,
1232
+ 3.5518022624922987e-07,
1233
+ 3.283496312774659e-07,
1234
+ 3.025557308069771e-07,
1235
+ 2.7780128966007904e-07,
1236
+ 2.540889612404851e-07,
1237
+ 2.3142128724889634e-07,
1238
+ 2.098006974105471e-07,
1239
+ 1.8922950921477555e-07,
1240
+ 1.697099276666081e-07,
1241
+ 1.5124404505041046e-07,
1242
+ 1.3383384070561834e-07,
1243
+ 1.1748118081457038e-07,
1244
+ 1.0218781820247603e-07,
1245
+ 8.795539214953353e-08,
1246
+ 7.478542821521495e-08,
1247
+ 6.267933807474369e-08,
1248
+ 5.1638419367776584e-08,
1249
+ 4.166385555931518e-08,
1250
+ 3.275671581284834e-08,
1251
+ 2.491795487575277e-08,
1252
+ 1.814841297694714e-08,
1253
+ 1.2448815736839649e-08,
1254
+ 7.819774089539155e-09,
1255
+ 4.261784217376441e-09,
1256
+ 1.7752274977178574e-09,
1257
+ 3.603704620835924e-10
1258
+ ],
1259
+ "eval_step": [
1260
+ 781,
1261
+ 1562,
1262
+ 2343,
1263
+ 3124,
1264
+ 3905,
1265
+ 4686,
1266
+ 5467,
1267
+ 6248,
1268
+ 7029,
1269
+ 7810,
1270
+ 8591,
1271
+ 9372,
1272
+ 10153,
1273
+ 10934,
1274
+ 11715,
1275
+ 12496,
1276
+ 13277,
1277
+ 14058,
1278
+ 14839,
1279
+ 15620
1280
+ ],
1281
+ "eval_epoch": [
1282
+ 1,
1283
+ 2,
1284
+ 3,
1285
+ 4,
1286
+ 5,
1287
+ 6,
1288
+ 7,
1289
+ 8,
1290
+ 9,
1291
+ 10,
1292
+ 11,
1293
+ 12,
1294
+ 13,
1295
+ 14,
1296
+ 15,
1297
+ 16,
1298
+ 17,
1299
+ 18,
1300
+ 19,
1301
+ 20
1302
+ ],
1303
+ "eval_accuracy": [
1304
+ 0.0,
1305
+ 0.0,
1306
+ 0.0,
1307
+ 0.0011111111111111111,
1308
+ 0.0022222222222222222,
1309
+ 0.014444444444444444,
1310
+ 0.052222222222222225,
1311
+ 0.051111111111111114,
1312
+ 0.08333333333333333,
1313
+ 0.10888888888888888,
1314
+ 0.11222222222222222,
1315
+ 0.1288888888888889,
1316
+ 0.13777777777777778,
1317
+ 0.17,
1318
+ 0.15555555555555556,
1319
+ 0.18444444444444444,
1320
+ 0.2088888888888889,
1321
+ 0.20222222222222222,
1322
+ 0.21777777777777776,
1323
+ 0.21444444444444444
1324
+ ]
1325
+ },
1326
+ "final_accuracy": 0.1925,
1327
+ "sft_eval": {
1328
+ "config": {
1329
+ "ops": "add_sub",
1330
+ "K": null,
1331
+ "mode": "sft",
1332
+ "n_digits": 6,
1333
+ "n_per_split": 100
1334
+ },
1335
+ "splits": {
1336
+ "add_S0": {
1337
+ "full_accuracy": 0.45,
1338
+ "n_examples": 100,
1339
+ "per_subtask": {
1340
+ "SA": {
1341
+ "accuracy": 0.8925619834710744,
1342
+ "count": 605
1343
+ },
1344
+ "SS": {
1345
+ "accuracy": 0.9894736842105263,
1346
+ "count": 95
1347
+ }
1348
+ }
1349
+ },
1350
+ "add_S1": {
1351
+ "full_accuracy": 0.24,
1352
+ "n_examples": 100,
1353
+ "per_subtask": {
1354
+ "SA": {
1355
+ "accuracy": 0.9166666666666666,
1356
+ "count": 204
1357
+ },
1358
+ "SC": {
1359
+ "accuracy": 0.9349112426035503,
1360
+ "count": 169
1361
+ },
1362
+ "SS": {
1363
+ "accuracy": 0.967741935483871,
1364
+ "count": 31
1365
+ },
1366
+ "UC": {
1367
+ "accuracy": 0.7297297297297297,
1368
+ "count": 296
1369
+ }
1370
+ }
1371
+ },
1372
+ "add_S2": {
1373
+ "full_accuracy": 0.23,
1374
+ "n_examples": 100,
1375
+ "per_subtask": {
1376
+ "SA": {
1377
+ "accuracy": 0.9079754601226994,
1378
+ "count": 163
1379
+ },
1380
+ "SC": {
1381
+ "accuracy": 0.9076923076923077,
1382
+ "count": 130
1383
+ },
1384
+ "SS": {
1385
+ "accuracy": 0.8735632183908046,
1386
+ "count": 87
1387
+ },
1388
+ "UC": {
1389
+ "accuracy": 0.6502463054187192,
1390
+ "count": 203
1391
+ },
1392
+ "US": {
1393
+ "accuracy": 0.9743589743589743,
1394
+ "count": 117
1395
+ }
1396
+ }
1397
+ },
1398
+ "add_S3": {
1399
+ "full_accuracy": 0.16,
1400
+ "n_examples": 100,
1401
+ "per_subtask": {
1402
+ "SA": {
1403
+ "accuracy": 0.9669421487603306,
1404
+ "count": 121
1405
+ },
1406
+ "SC": {
1407
+ "accuracy": 0.8925619834710744,
1408
+ "count": 121
1409
+ },
1410
+ "SS": {
1411
+ "accuracy": 0.9591836734693877,
1412
+ "count": 49
1413
+ },
1414
+ "UC": {
1415
+ "accuracy": 0.6290322580645161,
1416
+ "count": 186
1417
+ },
1418
+ "US": {
1419
+ "accuracy": 0.7399103139013453,
1420
+ "count": 223
1421
+ }
1422
+ }
1423
+ },
1424
+ "add_S4": {
1425
+ "full_accuracy": 0.29,
1426
+ "n_examples": 100,
1427
+ "per_subtask": {
1428
+ "SA": {
1429
+ "accuracy": 0.9711538461538461,
1430
+ "count": 104
1431
+ },
1432
+ "SC": {
1433
+ "accuracy": 0.9433962264150944,
1434
+ "count": 106
1435
+ },
1436
+ "SS": {
1437
+ "accuracy": 0.9130434782608695,
1438
+ "count": 23
1439
+ },
1440
+ "UC": {
1441
+ "accuracy": 0.66875,
1442
+ "count": 160
1443
+ },
1444
+ "US": {
1445
+ "accuracy": 0.5928338762214984,
1446
+ "count": 307
1447
+ }
1448
+ }
1449
+ },
1450
+ "add_S5": {
1451
+ "full_accuracy": 0.12,
1452
+ "n_examples": 100,
1453
+ "per_subtask": {
1454
+ "SA": {
1455
+ "accuracy": 0.99,
1456
+ "count": 100
1457
+ },
1458
+ "SC": {
1459
+ "accuracy": 0.99,
1460
+ "count": 100
1461
+ },
1462
+ "UC": {
1463
+ "accuracy": 0.31,
1464
+ "count": 100
1465
+ },
1466
+ "US": {
1467
+ "accuracy": 0.3675,
1468
+ "count": 400
1469
+ }
1470
+ }
1471
+ },
1472
+ "add_S6": {
1473
+ "full_accuracy": 0.29,
1474
+ "n_examples": 100,
1475
+ "per_subtask": {
1476
+ "SC": {
1477
+ "accuracy": 0.99,
1478
+ "count": 100
1479
+ },
1480
+ "UC": {
1481
+ "accuracy": 0.49,
1482
+ "count": 100
1483
+ },
1484
+ "US": {
1485
+ "accuracy": 0.492,
1486
+ "count": 500
1487
+ }
1488
+ }
1489
+ },
1490
+ "add_random": {
1491
+ "full_accuracy": 0.235,
1492
+ "n_examples": 200,
1493
+ "per_subtask": {
1494
+ "SA": {
1495
+ "accuracy": 0.8926174496644296,
1496
+ "count": 447
1497
+ },
1498
+ "SC": {
1499
+ "accuracy": 0.946875,
1500
+ "count": 320
1501
+ },
1502
+ "SS": {
1503
+ "accuracy": 1.0,
1504
+ "count": 56
1505
+ },
1506
+ "UC": {
1507
+ "accuracy": 0.7334593572778828,
1508
+ "count": 529
1509
+ },
1510
+ "US": {
1511
+ "accuracy": 0.8958333333333334,
1512
+ "count": 48
1513
+ }
1514
+ }
1515
+ },
1516
+ "add_C3": {
1517
+ "full_accuracy": 0.22,
1518
+ "n_examples": 100,
1519
+ "per_subtask": {
1520
+ "SA": {
1521
+ "accuracy": 0.93,
1522
+ "count": 300
1523
+ },
1524
+ "SC": {
1525
+ "accuracy": 0.99,
1526
+ "count": 100
1527
+ },
1528
+ "UC": {
1529
+ "accuracy": 0.538860103626943,
1530
+ "count": 193
1531
+ },
1532
+ "US": {
1533
+ "accuracy": 0.7850467289719626,
1534
+ "count": 107
1535
+ }
1536
+ }
1537
+ },
1538
+ "add_C4": {
1539
+ "full_accuracy": 0.21,
1540
+ "n_examples": 100,
1541
+ "per_subtask": {
1542
+ "SA": {
1543
+ "accuracy": 0.96,
1544
+ "count": 200
1545
+ },
1546
+ "SC": {
1547
+ "accuracy": 0.99,
1548
+ "count": 100
1549
+ },
1550
+ "UC": {
1551
+ "accuracy": 0.62109375,
1552
+ "count": 256
1553
+ },
1554
+ "US": {
1555
+ "accuracy": 0.7847222222222222,
1556
+ "count": 144
1557
+ }
1558
+ }
1559
+ },
1560
+ "add_C5": {
1561
+ "full_accuracy": 0.18,
1562
+ "n_examples": 100,
1563
+ "per_subtask": {
1564
+ "SA": {
1565
+ "accuracy": 1.0,
1566
+ "count": 100
1567
+ },
1568
+ "SC": {
1569
+ "accuracy": 0.97,
1570
+ "count": 100
1571
+ },
1572
+ "UC": {
1573
+ "accuracy": 0.6666666666666666,
1574
+ "count": 306
1575
+ },
1576
+ "US": {
1577
+ "accuracy": 0.7525773195876289,
1578
+ "count": 194
1579
+ }
1580
+ }
1581
+ },
1582
+ "add_C6": {
1583
+ "full_accuracy": 0.07,
1584
+ "n_examples": 100,
1585
+ "per_subtask": {
1586
+ "SC": {
1587
+ "accuracy": 0.99,
1588
+ "count": 100
1589
+ },
1590
+ "UC": {
1591
+ "accuracy": 0.6721311475409836,
1592
+ "count": 366
1593
+ },
1594
+ "US": {
1595
+ "accuracy": 0.8333333333333334,
1596
+ "count": 234
1597
+ }
1598
+ }
1599
+ },
1600
+ "sub_M0": {
1601
+ "full_accuracy": 0.45,
1602
+ "n_examples": 100,
1603
+ "per_subtask": {
1604
+ "MD": {
1605
+ "accuracy": 0.8885191347753744,
1606
+ "count": 601
1607
+ },
1608
+ "ME": {
1609
+ "accuracy": 1.0,
1610
+ "count": 99
1611
+ }
1612
+ }
1613
+ },
1614
+ "sub_M1": {
1615
+ "full_accuracy": 0.21,
1616
+ "n_examples": 100,
1617
+ "per_subtask": {
1618
+ "MD": {
1619
+ "accuracy": 0.9175627240143369,
1620
+ "count": 279
1621
+ },
1622
+ "MB": {
1623
+ "accuracy": 0.9379310344827586,
1624
+ "count": 145
1625
+ },
1626
+ "ME": {
1627
+ "accuracy": 0.9583333333333334,
1628
+ "count": 24
1629
+ },
1630
+ "UB": {
1631
+ "accuracy": 0.6031746031746031,
1632
+ "count": 252
1633
+ }
1634
+ }
1635
+ },
1636
+ "sub_M2": {
1637
+ "full_accuracy": 0.21,
1638
+ "n_examples": 100,
1639
+ "per_subtask": {
1640
+ "MD": {
1641
+ "accuracy": 0.9342723004694836,
1642
+ "count": 213
1643
+ },
1644
+ "MB": {
1645
+ "accuracy": 0.9557522123893806,
1646
+ "count": 113
1647
+ },
1648
+ "ME": {
1649
+ "accuracy": 0.9882352941176471,
1650
+ "count": 85
1651
+ },
1652
+ "UB": {
1653
+ "accuracy": 0.5027624309392266,
1654
+ "count": 181
1655
+ },
1656
+ "UD": {
1657
+ "accuracy": 0.9907407407407407,
1658
+ "count": 108
1659
+ }
1660
+ }
1661
+ },
1662
+ "sub_M3": {
1663
+ "full_accuracy": 0.04,
1664
+ "n_examples": 100,
1665
+ "per_subtask": {
1666
+ "MD": {
1667
+ "accuracy": 0.9888268156424581,
1668
+ "count": 179
1669
+ },
1670
+ "MB": {
1671
+ "accuracy": 0.9223300970873787,
1672
+ "count": 103
1673
+ },
1674
+ "ME": {
1675
+ "accuracy": 0.9464285714285714,
1676
+ "count": 56
1677
+ },
1678
+ "UB": {
1679
+ "accuracy": 0.436241610738255,
1680
+ "count": 149
1681
+ },
1682
+ "UD": {
1683
+ "accuracy": 0.5539906103286385,
1684
+ "count": 213
1685
+ }
1686
+ }
1687
+ },
1688
+ "sub_M4": {
1689
+ "full_accuracy": 0.06,
1690
+ "n_examples": 100,
1691
+ "per_subtask": {
1692
+ "MD": {
1693
+ "accuracy": 0.97,
1694
+ "count": 200
1695
+ },
1696
+ "MB": {
1697
+ "accuracy": 0.96,
1698
+ "count": 100
1699
+ },
1700
+ "UB": {
1701
+ "accuracy": 0.54,
1702
+ "count": 100
1703
+ },
1704
+ "UD": {
1705
+ "accuracy": 0.33,
1706
+ "count": 300
1707
+ }
1708
+ }
1709
+ },
1710
+ "sub_M5": {
1711
+ "full_accuracy": 0.04,
1712
+ "n_examples": 100,
1713
+ "per_subtask": {
1714
+ "MD": {
1715
+ "accuracy": 1.0,
1716
+ "count": 100
1717
+ },
1718
+ "MB": {
1719
+ "accuracy": 0.98,
1720
+ "count": 100
1721
+ },
1722
+ "UB": {
1723
+ "accuracy": 0.51,
1724
+ "count": 100
1725
+ },
1726
+ "UD": {
1727
+ "accuracy": 0.24,
1728
+ "count": 400
1729
+ }
1730
+ }
1731
+ },
1732
+ "sub_random": {
1733
+ "full_accuracy": 0.27,
1734
+ "n_examples": 200,
1735
+ "per_subtask": {
1736
+ "MD": {
1737
+ "accuracy": 0.9383333333333334,
1738
+ "count": 600
1739
+ },
1740
+ "MB": {
1741
+ "accuracy": 0.9363295880149812,
1742
+ "count": 267
1743
+ },
1744
+ "ME": {
1745
+ "accuracy": 1.0,
1746
+ "count": 53
1747
+ },
1748
+ "UB": {
1749
+ "accuracy": 0.6104783599088838,
1750
+ "count": 439
1751
+ },
1752
+ "UD": {
1753
+ "accuracy": 0.9512195121951219,
1754
+ "count": 41
1755
+ }
1756
+ }
1757
+ },
1758
+ "sub_B3": {
1759
+ "full_accuracy": 0.1,
1760
+ "n_examples": 100,
1761
+ "per_subtask": {
1762
+ "MD": {
1763
+ "accuracy": 0.9433333333333334,
1764
+ "count": 300
1765
+ },
1766
+ "MB": {
1767
+ "accuracy": 0.97,
1768
+ "count": 100
1769
+ },
1770
+ "UB": {
1771
+ "accuracy": 0.5126903553299492,
1772
+ "count": 197
1773
+ },
1774
+ "UD": {
1775
+ "accuracy": 0.7184466019417476,
1776
+ "count": 103
1777
+ }
1778
+ }
1779
+ },
1780
+ "sub_B4": {
1781
+ "full_accuracy": 0.03,
1782
+ "n_examples": 100,
1783
+ "per_subtask": {
1784
+ "MD": {
1785
+ "accuracy": 0.97,
1786
+ "count": 200
1787
+ },
1788
+ "MB": {
1789
+ "accuracy": 0.96,
1790
+ "count": 100
1791
+ },
1792
+ "UB": {
1793
+ "accuracy": 0.43724696356275305,
1794
+ "count": 247
1795
+ },
1796
+ "UD": {
1797
+ "accuracy": 0.6339869281045751,
1798
+ "count": 153
1799
+ }
1800
+ }
1801
+ },
1802
+ "sub_B5": {
1803
+ "full_accuracy": 0.03,
1804
+ "n_examples": 100,
1805
+ "per_subtask": {
1806
+ "MD": {
1807
+ "accuracy": 1.0,
1808
+ "count": 100
1809
+ },
1810
+ "MB": {
1811
+ "accuracy": 1.0,
1812
+ "count": 100
1813
+ },
1814
+ "UB": {
1815
+ "accuracy": 0.4395973154362416,
1816
+ "count": 298
1817
+ },
1818
+ "UD": {
1819
+ "accuracy": 0.6881188118811881,
1820
+ "count": 202
1821
+ }
1822
+ }
1823
+ }
1824
+ },
1825
+ "summary": {
1826
+ "overall_accuracy": 0.1925,
1827
+ "total_examples": 2400,
1828
+ "n_splits": 22
1829
+ }
1830
+ }
1831
+ }
add_sub_baseline_50K_2L1H128d/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f042fb5952a5a3d094f33db76e3792f60cc38e235d390fab794cf6dc4983dad2
3
+ size 157692826
add_sub_baseline_50K_2L1H128d/train_config.json ADDED
@@ -0,0 +1,84 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "num_rollouts": 4,
3
+ "K": 4,
4
+ "max_iterations": 2,
5
+ "memory_span_abs": 1792,
6
+ "memory_span_traj": 1792,
7
+ "temperature": 1.0,
8
+ "ar_search": false,
9
+ "response_only_abs": false,
10
+ "alpha_info_gain": 10.0,
11
+ "alpha_abs": 0.1,
12
+ "alpha_soft_zipf": 1.0,
13
+ "alpha_ortho": 0.0,
14
+ "alpha_anchor": 0.0,
15
+ "alpha_jacobi": 0.0,
16
+ "decay": 0.8,
17
+ "target_vocab_util": 0.8,
18
+ "min_abs_ppl": 0.0,
19
+ "zipf_alpha": 1.0,
20
+ "lr": 2e-05,
21
+ "emb_lr_mult": 1.0,
22
+ "weight_decay": 0.01,
23
+ "warmup_steps": 468,
24
+ "cooldown_frac": 0.4,
25
+ "max_grad_norm": 1.0,
26
+ "vq_abs_pretrain_steps": 0,
27
+ "vq_abs_pretrain_lr": 0.001,
28
+ "vq_abs_pretrain_layer": -1,
29
+ "vq_abs_pretrain_batch_size": 256,
30
+ "vq_abs_pretrain_target_vectors": 20000,
31
+ "batch_size": 64,
32
+ "gradient_accumulation_steps": 1,
33
+ "num_epochs": 20,
34
+ "emb_warmup_steps": 0,
35
+ "log_every": 50,
36
+ "eval_every": 781,
37
+ "save_every": 999999,
38
+ "eval_samples": 100,
39
+ "output_dir": "ckpt/sweep/as_baseline_50K_2L1H128d",
40
+ "eval_K": 4,
41
+ "alpha_traj": 0.0,
42
+ "corrupt_method": "shuffle",
43
+ "corrupt_ratio": 0.3,
44
+ "alpha_contrastive": 1.0,
45
+ "gamma_contrastive": 0.5,
46
+ "alpha_masked_traj": 0.0,
47
+ "mask_nl_ratio": 0.3,
48
+ "mask_nl_mode": "fixed",
49
+ "mask_nl_fixed_id": 0,
50
+ "use_ste": true,
51
+ "n_inner": 1,
52
+ "random_K": null,
53
+ "strip_suffix": null,
54
+ "compress_prefix": null,
55
+ "random_mem_span": null,
56
+ "warmup_ratio": 0.03,
57
+ "beta2": 0.999,
58
+ "seed": 42,
59
+ "n_digits": 6,
60
+ "n_layer": 2,
61
+ "n_head": 1,
62
+ "n_embd": 128,
63
+ "ops": "add_sub",
64
+ "abs_vocab": 0,
65
+ "dataset_size": 50000,
66
+ "mode": "baseline",
67
+ "device": "cuda",
68
+ "push_to_hub": true,
69
+ "no_wandb": false,
70
+ "n_params": 39346560,
71
+ "run_name": "add_sub_baseline_50K_2L1H128d",
72
+ "git_commit": "7c8a203ce79a277a1e41a3ec0648cb73d5b2b760",
73
+ "timestamp": "2026-04-14T01:48:03.866368+00:00",
74
+ "tokenizer": "Qwen/Qwen3-0.6B",
75
+ "dataset_repo": "thoughtworks/arithmetic-sorl-data",
76
+ "dataset_config": "add_sub_6digit",
77
+ "model_repo": "thoughtworks/arithmetic-sorl",
78
+ "trainer_version": "sft",
79
+ "wandb_run_id": "c75zys8r",
80
+ "wandb_url": "https://wandb.ai/nlp_and_interpretability/sorl-arithmetic/runs/c75zys8r",
81
+ "final_accuracy": 0.1925,
82
+ "sft_accuracy": 0.1925,
83
+ "eval_method": "ArithmeticEvaluator"
84
+ }