amirali1985 commited on
Commit
06247ed
·
verified ·
1 Parent(s): 9d5d7df

Upload add_sub_sorl_abs16_50K

Browse files
add_sub_sorl_abs16_50K/config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "SorlModelWrapper"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": null,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 512,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 2048,
15
+ "layer_types": [
16
+ "full_attention",
17
+ "full_attention",
18
+ "full_attention"
19
+ ],
20
+ "max_position_embeddings": 128,
21
+ "max_window_layers": 28,
22
+ "model_type": "qwen3",
23
+ "num_attention_heads": 4,
24
+ "num_hidden_layers": 3,
25
+ "num_key_value_heads": 4,
26
+ "pad_token_id": null,
27
+ "rms_norm_eps": 1e-06,
28
+ "rope_parameters": {
29
+ "rope_theta": 10000.0,
30
+ "rope_type": "default"
31
+ },
32
+ "sliding_window": null,
33
+ "tie_word_embeddings": false,
34
+ "transformers_version": "5.5.0",
35
+ "use_cache": true,
36
+ "use_sliding_window": false,
37
+ "vocab_size": 151660
38
+ }
add_sub_sorl_abs16_50K/generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "output_attentions": false,
4
+ "output_hidden_states": false,
5
+ "transformers_version": "5.5.0",
6
+ "use_cache": true
7
+ }
add_sub_sorl_abs16_50K/metrics.json ADDED
@@ -0,0 +1,569 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "history": {
3
+ "step": [
4
+ 50,
5
+ 100,
6
+ 150,
7
+ 200,
8
+ 250,
9
+ 300,
10
+ 350,
11
+ 400,
12
+ 450,
13
+ 500,
14
+ 550,
15
+ 600,
16
+ 650,
17
+ 700,
18
+ 750,
19
+ 832,
20
+ 882,
21
+ 932,
22
+ 982,
23
+ 1032,
24
+ 1082,
25
+ 1132,
26
+ 1182,
27
+ 1232,
28
+ 1282,
29
+ 1332,
30
+ 1382,
31
+ 1432,
32
+ 1482,
33
+ 1532,
34
+ 1614,
35
+ 1664,
36
+ 1714,
37
+ 1764,
38
+ 1814,
39
+ 1864,
40
+ 1914,
41
+ 1964,
42
+ 2014,
43
+ 2064,
44
+ 2114,
45
+ 2164,
46
+ 2214,
47
+ 2264,
48
+ 2314
49
+ ],
50
+ "loss": [
51
+ 6.464371681213379,
52
+ 2.79175066947937,
53
+ 2.0010666847229004,
54
+ 1.8551608324050903,
55
+ 1.8369381427764893,
56
+ 1.731404185295105,
57
+ 1.7096894979476929,
58
+ 1.6875642538070679,
59
+ 1.5112879276275635,
60
+ 0.8652929663658142,
61
+ 0.6821953654289246,
62
+ 0.46526315808296204,
63
+ 0.2648518681526184,
64
+ 0.12972135841846466,
65
+ 0.12145821005105972,
66
+ 0.09724167734384537,
67
+ 0.08110703527927399,
68
+ 0.04440100118517876,
69
+ 0.0464322455227375,
70
+ 0.012683129869401455,
71
+ 0.02649371512234211,
72
+ 0.012222354300320148,
73
+ 0.0049349418841302395,
74
+ 0.011219530366361141,
75
+ 0.012994865886867046,
76
+ 0.003942703362554312,
77
+ 0.004601862281560898,
78
+ 0.0030954943504184484,
79
+ 0.010825539007782936,
80
+ 0.004111934918910265,
81
+ 0.001632462372072041,
82
+ 0.001822138438001275,
83
+ 0.010903804562985897,
84
+ 0.0010920005152001977,
85
+ 0.0009071502718143165,
86
+ 0.0016230110777541995,
87
+ 0.0006237748311832547,
88
+ 0.0007393051637336612,
89
+ 0.0005988346529193223,
90
+ 0.0005858043441548944,
91
+ 0.0006087837391532958,
92
+ 0.0005463207489810884,
93
+ 0.0005402113893069327,
94
+ 0.0005222931504249573,
95
+ 0.0005348933627828956
96
+ ],
97
+ "base_loss": [
98
+ 6.447890281677246,
99
+ 2.831890106201172,
100
+ 2.0987026691436768,
101
+ 2.0549819469451904,
102
+ 2.2822377681732178,
103
+ 2.3979060649871826,
104
+ 2.4766666889190674,
105
+ 2.580287456512451,
106
+ 2.618457555770874,
107
+ 3.7703707218170166,
108
+ 4.0559587478637695,
109
+ 4.366889476776123,
110
+ 4.868014335632324,
111
+ 5.06544828414917,
112
+ 5.202343940734863,
113
+ 5.492282390594482,
114
+ 6.085686206817627,
115
+ 6.079521656036377,
116
+ 6.21254301071167,
117
+ 6.163965702056885,
118
+ 6.5638580322265625,
119
+ 6.828157901763916,
120
+ 6.9253153800964355,
121
+ 7.208773136138916,
122
+ 7.116584777832031,
123
+ 7.021457195281982,
124
+ 6.995259761810303,
125
+ 7.353917598724365,
126
+ 7.156722068786621,
127
+ 7.258090496063232,
128
+ 7.392336845397949,
129
+ 7.5308661460876465,
130
+ 7.351168155670166,
131
+ 7.429757118225098,
132
+ 7.542872905731201,
133
+ 7.42152738571167,
134
+ 7.650119304656982,
135
+ 7.859031677246094,
136
+ 7.509777545928955,
137
+ 7.796986103057861,
138
+ 8.0226411819458,
139
+ 7.969923973083496,
140
+ 8.025077819824219,
141
+ 7.899775505065918,
142
+ 8.06196117401123
143
+ ],
144
+ "traj_loss": [
145
+ 6.464371681213379,
146
+ 2.79175066947937,
147
+ 2.0010666847229004,
148
+ 1.8551608324050903,
149
+ 1.8369381427764893,
150
+ 1.731404185295105,
151
+ 1.7096894979476929,
152
+ 1.6875642538070679,
153
+ 1.5112879276275635,
154
+ 0.8652929663658142,
155
+ 0.6821953654289246,
156
+ 0.46526315808296204,
157
+ 0.2648518681526184,
158
+ 0.12972135841846466,
159
+ 0.12145821005105972,
160
+ 0.09724167734384537,
161
+ 0.08110703527927399,
162
+ 0.04440100118517876,
163
+ 0.0464322455227375,
164
+ 0.012683129869401455,
165
+ 0.02649371512234211,
166
+ 0.012222354300320148,
167
+ 0.0049349418841302395,
168
+ 0.011219530366361141,
169
+ 0.012994865886867046,
170
+ 0.003942703362554312,
171
+ 0.004601862281560898,
172
+ 0.0030954943504184484,
173
+ 0.010825539007782936,
174
+ 0.004111934918910265,
175
+ 0.001632462372072041,
176
+ 0.001822138438001275,
177
+ 0.010903804562985897,
178
+ 0.0010920005152001977,
179
+ 0.0009071502718143165,
180
+ 0.0016230110777541995,
181
+ 0.0006237748311832547,
182
+ 0.0007393051637336612,
183
+ 0.0005988346529193223,
184
+ 0.0005858043441548944,
185
+ 0.0006087837391532958,
186
+ 0.0005463207489810884,
187
+ 0.0005402113893069327,
188
+ 0.0005222931504249573,
189
+ 0.0005348933627828956
190
+ ],
191
+ "hinge_loss": [
192
+ 0.0,
193
+ 0.0,
194
+ 0.0,
195
+ 0.0,
196
+ 0.0,
197
+ 0.0,
198
+ 0.0,
199
+ 0.0,
200
+ 0.0,
201
+ 0.0,
202
+ 0.0,
203
+ 0.0,
204
+ 0.0,
205
+ 0.0,
206
+ 0.0,
207
+ 0.0,
208
+ 0.0,
209
+ 0.0,
210
+ 0.0,
211
+ 0.0,
212
+ 0.0,
213
+ 0.0,
214
+ 0.0,
215
+ 0.0,
216
+ 0.0,
217
+ 0.0,
218
+ 0.0,
219
+ 0.0,
220
+ 0.0,
221
+ 0.0,
222
+ 0.0,
223
+ 0.0,
224
+ 0.0,
225
+ 0.0,
226
+ 0.0,
227
+ 0.0,
228
+ 0.0,
229
+ 0.0,
230
+ 0.0,
231
+ 0.0,
232
+ 0.0,
233
+ 0.0,
234
+ 0.0,
235
+ 0.0,
236
+ 0.0
237
+ ],
238
+ "masked_traj_loss": [
239
+ 0.0,
240
+ 0.0,
241
+ 0.0,
242
+ 0.0,
243
+ 0.0,
244
+ 0.0,
245
+ 0.0,
246
+ 0.0,
247
+ 0.0,
248
+ 0.0,
249
+ 0.0,
250
+ 0.0,
251
+ 0.0,
252
+ 0.0,
253
+ 0.0,
254
+ 0.0,
255
+ 0.0,
256
+ 0.0,
257
+ 0.0,
258
+ 0.0,
259
+ 0.0,
260
+ 0.0,
261
+ 0.0,
262
+ 0.0,
263
+ 0.0,
264
+ 0.0,
265
+ 0.0,
266
+ 0.0,
267
+ 0.0,
268
+ 0.0,
269
+ 0.0,
270
+ 0.0,
271
+ 0.0,
272
+ 0.0,
273
+ 0.0,
274
+ 0.0,
275
+ 0.0,
276
+ 0.0,
277
+ 0.0,
278
+ 0.0,
279
+ 0.0,
280
+ 0.0,
281
+ 0.0,
282
+ 0.0,
283
+ 0.0
284
+ ],
285
+ "abs_loss": [
286
+ 0.0,
287
+ 0.0,
288
+ 0.0,
289
+ 0.0,
290
+ 0.0,
291
+ 0.0,
292
+ 0.0,
293
+ 0.0,
294
+ 0.0,
295
+ 0.0,
296
+ 0.0,
297
+ 0.0,
298
+ 0.0,
299
+ 0.0,
300
+ 0.0,
301
+ 0.0,
302
+ 0.0,
303
+ 0.0,
304
+ 0.0,
305
+ 0.0,
306
+ 0.0,
307
+ 0.0,
308
+ 0.0,
309
+ 0.0,
310
+ 0.0,
311
+ 0.0,
312
+ 0.0,
313
+ 0.0,
314
+ 0.0,
315
+ 0.0,
316
+ 0.0,
317
+ 0.0,
318
+ 0.0,
319
+ 0.0,
320
+ 0.0,
321
+ 0.0,
322
+ 0.0,
323
+ 0.0,
324
+ 0.0,
325
+ 0.0,
326
+ 0.0,
327
+ 0.0,
328
+ 0.0,
329
+ 0.0,
330
+ 0.0
331
+ ],
332
+ "zipf_loss": [
333
+ 0.0,
334
+ 0.0,
335
+ 0.0,
336
+ 0.0,
337
+ 0.0,
338
+ 0.0,
339
+ 0.0,
340
+ 0.0,
341
+ 0.0,
342
+ 0.0,
343
+ 0.0,
344
+ 0.0,
345
+ 0.0,
346
+ 0.0,
347
+ 0.0,
348
+ 0.0,
349
+ 0.0,
350
+ 0.0,
351
+ 0.0,
352
+ 0.0,
353
+ 0.0,
354
+ 0.0,
355
+ 0.0,
356
+ 0.0,
357
+ 0.0,
358
+ 0.0,
359
+ 0.0,
360
+ 0.0,
361
+ 0.0,
362
+ 0.0,
363
+ 0.0,
364
+ 0.0,
365
+ 0.0,
366
+ 0.0,
367
+ 0.0,
368
+ 0.0,
369
+ 0.0,
370
+ 0.0,
371
+ 0.0,
372
+ 0.0,
373
+ 0.0,
374
+ 0.0,
375
+ 0.0,
376
+ 0.0,
377
+ 0.0
378
+ ],
379
+ "ortho_loss": [
380
+ 0.0,
381
+ 0.0,
382
+ 0.0,
383
+ 0.0,
384
+ 0.0,
385
+ 0.0,
386
+ 0.0,
387
+ 0.0,
388
+ 0.0,
389
+ 0.0,
390
+ 0.0,
391
+ 0.0,
392
+ 0.0,
393
+ 0.0,
394
+ 0.0,
395
+ 0.0,
396
+ 0.0,
397
+ 0.0,
398
+ 0.0,
399
+ 0.0,
400
+ 0.0,
401
+ 0.0,
402
+ 0.0,
403
+ 0.0,
404
+ 0.0,
405
+ 0.0,
406
+ 0.0,
407
+ 0.0,
408
+ 0.0,
409
+ 0.0,
410
+ 0.0,
411
+ 0.0,
412
+ 0.0,
413
+ 0.0,
414
+ 0.0,
415
+ 0.0,
416
+ 0.0,
417
+ 0.0,
418
+ 0.0,
419
+ 0.0,
420
+ 0.0,
421
+ 0.0,
422
+ 0.0,
423
+ 0.0,
424
+ 0.0
425
+ ],
426
+ "anchor_loss": [
427
+ 0.0,
428
+ 0.0,
429
+ 0.0,
430
+ 0.0,
431
+ 0.0,
432
+ 0.0,
433
+ 0.0,
434
+ 0.0,
435
+ 0.0,
436
+ 0.0,
437
+ 0.0,
438
+ 0.0,
439
+ 0.0,
440
+ 0.0,
441
+ 0.0,
442
+ 0.0,
443
+ 0.0,
444
+ 0.0,
445
+ 0.0,
446
+ 0.0,
447
+ 0.0,
448
+ 0.0,
449
+ 0.0,
450
+ 0.0,
451
+ 0.0,
452
+ 0.0,
453
+ 0.0,
454
+ 0.0,
455
+ 0.0,
456
+ 0.0,
457
+ 0.0,
458
+ 0.0,
459
+ 0.0,
460
+ 0.0,
461
+ 0.0,
462
+ 0.0,
463
+ 0.0,
464
+ 0.0,
465
+ 0.0,
466
+ 0.0,
467
+ 0.0,
468
+ 0.0,
469
+ 0.0,
470
+ 0.0,
471
+ 0.0
472
+ ],
473
+ "jacobi_loss": [
474
+ 0.0,
475
+ 0.0,
476
+ 0.0,
477
+ 0.0,
478
+ 0.0,
479
+ 0.0,
480
+ 0.0,
481
+ 0.0,
482
+ 0.0,
483
+ 0.0,
484
+ 0.0,
485
+ 0.0,
486
+ 0.0,
487
+ 0.0,
488
+ 0.0,
489
+ 0.0,
490
+ 0.0,
491
+ 0.0,
492
+ 0.0,
493
+ 0.0,
494
+ 0.0,
495
+ 0.0,
496
+ 0.0,
497
+ 0.0,
498
+ 0.0,
499
+ 0.0,
500
+ 0.0,
501
+ 0.0,
502
+ 0.0,
503
+ 0.0,
504
+ 0.0,
505
+ 0.0,
506
+ 0.0,
507
+ 0.0,
508
+ 0.0,
509
+ 0.0,
510
+ 0.0,
511
+ 0.0,
512
+ 0.0,
513
+ 0.0,
514
+ 0.0,
515
+ 0.0,
516
+ 0.0,
517
+ 0.0,
518
+ 0.0
519
+ ],
520
+ "lr": [
521
+ 7.840000000000001e-05,
522
+ 8e-05,
523
+ 8e-05,
524
+ 8e-05,
525
+ 8e-05,
526
+ 8e-05,
527
+ 8e-05,
528
+ 8e-05,
529
+ 8e-05,
530
+ 8e-05,
531
+ 8e-05,
532
+ 8e-05,
533
+ 8e-05,
534
+ 8e-05,
535
+ 8e-05,
536
+ 8e-05,
537
+ 8e-05,
538
+ 8e-05,
539
+ 8e-05,
540
+ 8e-05,
541
+ 8e-05,
542
+ 8e-05,
543
+ 8e-05,
544
+ 8e-05,
545
+ 8e-05,
546
+ 8e-05,
547
+ 8e-05,
548
+ 7.973344947735191e-05,
549
+ 7.581358885017422e-05,
550
+ 7.189372822299652e-05,
551
+ 6.54651567944251e-05,
552
+ 6.154529616724739e-05,
553
+ 5.76254355400697e-05,
554
+ 5.3705574912892e-05,
555
+ 4.978571428571428e-05,
556
+ 4.586585365853658e-05,
557
+ 4.194599303135888e-05,
558
+ 3.8026132404181184e-05,
559
+ 3.4106271777003485e-05,
560
+ 3.018641114982579e-05,
561
+ 2.626655052264809e-05,
562
+ 2.234668989547039e-05,
563
+ 1.8426829268292696e-05,
564
+ 1.4506968641114977e-05,
565
+ 1.0587108013937278e-05
566
+ ]
567
+ },
568
+ "final_accuracy": 0.0
569
+ }
add_sub_sorl_abs16_50K/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fded2e6db0a0154c3e6a1e54532c03882e1a6cb9f4d82ae30b1384b9a502ce59
3
+ size 671856320
add_sub_sorl_abs16_50K/train_config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "mode": "sorl",
3
+ "ops": "add_sub",
4
+ "n_digits": 6,
5
+ "n_layer": 3,
6
+ "n_head": 4,
7
+ "n_embd": 512,
8
+ "abs_vocab": 16,
9
+ "K": 4,
10
+ "batch_size": 64,
11
+ "num_epochs": 3,
12
+ "dataset_size": 50000,
13
+ "lr": 8e-05,
14
+ "output_dir": "ckpt/r/add_sub_sorl_abs16_50K",
15
+ "device": "cuda",
16
+ "push_to_hub": true,
17
+ "no_wandb": false,
18
+ "n_params": 167887104,
19
+ "run_name": "add_sub_sorl_abs16_50K",
20
+ "git_commit": "9e4530548a98f8c7f5c14930ac4aec4886bb4b1b",
21
+ "timestamp": "2026-04-07T11:31:28.421529",
22
+ "tokenizer": "Qwen/Qwen3-0.6B",
23
+ "dataset_repo": "thoughtworks/arithmetic-sorl-data",
24
+ "dataset_config": "add_sub_6digit",
25
+ "model_repo": "thoughtworks/arithmetic-sorl",
26
+ "trainer_version": "v6",
27
+ "final_accuracy": 0.0
28
+ }