amirali1985 commited on
Commit
e744a2a
·
verified ·
1 Parent(s): 8940757

Upload add_sub_sorl_v6_abs30_K1_25K_1L3H510d

Browse files
add_sub_sorl_v6_abs30_K1_25K_1L3H510d/config.json ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "SorlModelWrapper"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": null,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 510,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 2040,
15
+ "layer_types": [
16
+ "full_attention"
17
+ ],
18
+ "max_position_embeddings": 128,
19
+ "max_window_layers": 28,
20
+ "model_type": "qwen3",
21
+ "num_attention_heads": 3,
22
+ "num_hidden_layers": 1,
23
+ "num_key_value_heads": 3,
24
+ "pad_token_id": null,
25
+ "rms_norm_eps": 1e-06,
26
+ "rope_parameters": {
27
+ "rope_theta": 10000.0,
28
+ "rope_type": "default"
29
+ },
30
+ "sliding_window": null,
31
+ "tie_word_embeddings": false,
32
+ "transformers_version": "5.5.0",
33
+ "use_cache": true,
34
+ "use_sliding_window": false,
35
+ "vocab_size": 151674
36
+ }
add_sub_sorl_v6_abs30_K1_25K_1L3H510d/generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "output_attentions": false,
4
+ "output_hidden_states": false,
5
+ "transformers_version": "5.5.0",
6
+ "use_cache": true
7
+ }
add_sub_sorl_v6_abs30_K1_25K_1L3H510d/metrics.json ADDED
@@ -0,0 +1,2765 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "history": {
3
+ "step": [
4
+ 50,
5
+ 100,
6
+ 150,
7
+ 200,
8
+ 250,
9
+ 300,
10
+ 350,
11
+ 441,
12
+ 491,
13
+ 541,
14
+ 591,
15
+ 641,
16
+ 691,
17
+ 741,
18
+ 832,
19
+ 882,
20
+ 932,
21
+ 982,
22
+ 1032,
23
+ 1082,
24
+ 1132,
25
+ 1223,
26
+ 1273,
27
+ 1323,
28
+ 1373,
29
+ 1423,
30
+ 1473,
31
+ 1523,
32
+ 1614,
33
+ 1664,
34
+ 1714,
35
+ 1764,
36
+ 1814,
37
+ 1864,
38
+ 1914,
39
+ 2005,
40
+ 2055,
41
+ 2105,
42
+ 2155,
43
+ 2205,
44
+ 2255,
45
+ 2305,
46
+ 2396,
47
+ 2446,
48
+ 2496,
49
+ 2546,
50
+ 2596,
51
+ 2646,
52
+ 2696,
53
+ 2787,
54
+ 2837,
55
+ 2887,
56
+ 2937,
57
+ 2987,
58
+ 3037,
59
+ 3087,
60
+ 3178,
61
+ 3228,
62
+ 3278,
63
+ 3328,
64
+ 3378,
65
+ 3428,
66
+ 3478,
67
+ 3569,
68
+ 3619,
69
+ 3669,
70
+ 3719,
71
+ 3769,
72
+ 3819,
73
+ 3869,
74
+ 3960,
75
+ 4010,
76
+ 4060,
77
+ 4110,
78
+ 4160,
79
+ 4210,
80
+ 4260,
81
+ 4351,
82
+ 4401,
83
+ 4451,
84
+ 4501,
85
+ 4551,
86
+ 4601,
87
+ 4651,
88
+ 4742,
89
+ 4792,
90
+ 4842,
91
+ 4892,
92
+ 4942,
93
+ 4992,
94
+ 5042,
95
+ 5133,
96
+ 5183,
97
+ 5233,
98
+ 5283,
99
+ 5333,
100
+ 5383,
101
+ 5433,
102
+ 5524,
103
+ 5574,
104
+ 5624,
105
+ 5674,
106
+ 5724,
107
+ 5774,
108
+ 5824,
109
+ 5915,
110
+ 5965,
111
+ 6015,
112
+ 6065,
113
+ 6115,
114
+ 6165,
115
+ 6215,
116
+ 6306,
117
+ 6356,
118
+ 6406,
119
+ 6456,
120
+ 6506,
121
+ 6556,
122
+ 6606,
123
+ 6697,
124
+ 6747,
125
+ 6797,
126
+ 6847,
127
+ 6897,
128
+ 6947,
129
+ 6997,
130
+ 7088,
131
+ 7138,
132
+ 7188,
133
+ 7238,
134
+ 7288,
135
+ 7338,
136
+ 7388,
137
+ 7479,
138
+ 7529,
139
+ 7579,
140
+ 7629,
141
+ 7679,
142
+ 7729,
143
+ 7779
144
+ ],
145
+ "loss": [
146
+ 8.19656753540039,
147
+ 6.174752235412598,
148
+ 3.6749186515808105,
149
+ 2.0767037868499756,
150
+ 1.9746944904327393,
151
+ 1.9035608768463135,
152
+ 1.8333710432052612,
153
+ 1.5968981981277466,
154
+ 1.4106667041778564,
155
+ 1.0485219955444336,
156
+ 0.8456077575683594,
157
+ 0.6840745210647583,
158
+ 0.576360821723938,
159
+ 0.5324751734733582,
160
+ 0.5653428435325623,
161
+ 0.48987501859664917,
162
+ 0.5225178599357605,
163
+ 0.45138534903526306,
164
+ 0.48134496808052063,
165
+ 0.46532565355300903,
166
+ 0.48369553685188293,
167
+ 0.46262338757514954,
168
+ 0.39399561285972595,
169
+ 0.43695300817489624,
170
+ 0.4768427312374115,
171
+ 0.40846362709999084,
172
+ 0.370921790599823,
173
+ 0.379800021648407,
174
+ 0.40950125455856323,
175
+ 0.40514808893203735,
176
+ 0.3439994752407074,
177
+ 0.378735214471817,
178
+ 0.3764505982398987,
179
+ 0.3375002443790436,
180
+ 0.40516597032546997,
181
+ 0.3378102481365204,
182
+ 0.32366302609443665,
183
+ 0.27299144864082336,
184
+ 0.3120460510253906,
185
+ 0.32998213171958923,
186
+ 0.29561376571655273,
187
+ 0.32035765051841736,
188
+ 0.34422895312309265,
189
+ 0.30208900570869446,
190
+ 0.3147081732749939,
191
+ 0.28302285075187683,
192
+ 0.2785095274448395,
193
+ 0.29831022024154663,
194
+ 0.3001428246498108,
195
+ 0.3239130973815918,
196
+ 0.2967076897621155,
197
+ 0.2387605756521225,
198
+ 0.26391884684562683,
199
+ 0.23518602550029755,
200
+ 0.21849407255649567,
201
+ 0.23858387768268585,
202
+ 0.22966758906841278,
203
+ 0.20723779499530792,
204
+ 0.22682631015777588,
205
+ 0.22686277329921722,
206
+ 0.22665467858314514,
207
+ 0.18968234956264496,
208
+ 0.17524336278438568,
209
+ 0.1601996272802353,
210
+ 0.19637885689735413,
211
+ 0.19119633734226227,
212
+ 0.1982196718454361,
213
+ 0.23128293454647064,
214
+ 0.18582873046398163,
215
+ 0.1539458930492401,
216
+ 0.17985732853412628,
217
+ 0.14789120852947235,
218
+ 0.16555778682231903,
219
+ 0.19444096088409424,
220
+ 0.14263807237148285,
221
+ 0.14793552458286285,
222
+ 0.1666954904794693,
223
+ 0.13436809182167053,
224
+ 0.16305102407932281,
225
+ 0.1530444175004959,
226
+ 0.1297033727169037,
227
+ 0.14127017557621002,
228
+ 0.1536053568124771,
229
+ 0.16693377494812012,
230
+ 0.1334567666053772,
231
+ 0.1545870006084442,
232
+ 0.13757635653018951,
233
+ 0.16199088096618652,
234
+ 0.1365976631641388,
235
+ 0.17273524403572083,
236
+ 0.16408126056194305,
237
+ 0.11063436418771744,
238
+ 0.1141413077712059,
239
+ 0.11719079315662384,
240
+ 0.10229291021823883,
241
+ 0.13693299889564514,
242
+ 0.1288372129201889,
243
+ 0.12741807103157043,
244
+ 0.12175439298152924,
245
+ 0.13942940533161163,
246
+ 0.14633359014987946,
247
+ 0.1502499282360077,
248
+ 0.06561033427715302,
249
+ 0.08612960577011108,
250
+ 0.10161978751420975,
251
+ 0.10131406038999557,
252
+ 0.14991037547588348,
253
+ 0.09229905158281326,
254
+ 0.10011570900678635,
255
+ 0.08830741792917252,
256
+ 0.11489105224609375,
257
+ 0.08740802854299545,
258
+ 0.11967604607343674,
259
+ 0.09155561029911041,
260
+ 0.10326703637838364,
261
+ 0.08638112992048264,
262
+ 0.1381668746471405,
263
+ 0.07292013615369797,
264
+ 0.0654192790389061,
265
+ 0.09921061247587204,
266
+ 0.12048036605119705,
267
+ 0.08874920755624771,
268
+ 0.0922590121626854,
269
+ 0.06335466355085373,
270
+ 0.08874557912349701,
271
+ 0.07574910670518875,
272
+ 0.08914481103420258,
273
+ 0.06439266353845596,
274
+ 0.0929182767868042,
275
+ 0.06473211944103241,
276
+ 0.08692616969347,
277
+ 0.08532018214464188,
278
+ 0.09214209020137787,
279
+ 0.06132759526371956,
280
+ 0.063250832259655,
281
+ 0.07289229333400726,
282
+ 0.06275173276662827,
283
+ 0.07829402387142181,
284
+ 0.07211742550134659,
285
+ 0.06874485313892365
286
+ ],
287
+ "base_loss": [
288
+ 10.769708633422852,
289
+ 7.337003231048584,
290
+ 4.2981858253479,
291
+ 2.2873966693878174,
292
+ 2.1463887691497803,
293
+ 2.213682174682617,
294
+ 2.130432367324829,
295
+ 2.3492648601531982,
296
+ 2.5349583625793457,
297
+ 2.8784255981445312,
298
+ 3.695557117462158,
299
+ 3.5530943870544434,
300
+ 4.14316987991333,
301
+ 4.273611545562744,
302
+ 4.7818474769592285,
303
+ 5.0849738121032715,
304
+ 5.253173828125,
305
+ 5.038633823394775,
306
+ 5.6159868240356445,
307
+ 5.873297691345215,
308
+ 5.7748517990112305,
309
+ 5.794990062713623,
310
+ 5.807773113250732,
311
+ 5.8801116943359375,
312
+ 6.362743854522705,
313
+ 6.294625282287598,
314
+ 6.038355350494385,
315
+ 6.355879306793213,
316
+ 5.85792875289917,
317
+ 6.232126712799072,
318
+ 5.882946491241455,
319
+ 5.950565814971924,
320
+ 6.065099239349365,
321
+ 6.103793144226074,
322
+ 5.553366661071777,
323
+ 5.927192687988281,
324
+ 5.959197998046875,
325
+ 5.675639629364014,
326
+ 5.966869831085205,
327
+ 5.822643756866455,
328
+ 5.5575995445251465,
329
+ 5.739266872406006,
330
+ 6.25645112991333,
331
+ 6.290787220001221,
332
+ 6.00012731552124,
333
+ 5.840479850769043,
334
+ 6.003446102142334,
335
+ 5.967643737792969,
336
+ 6.0914082527160645,
337
+ 6.24739408493042,
338
+ 6.116963863372803,
339
+ 6.323980808258057,
340
+ 6.53094482421875,
341
+ 6.063506126403809,
342
+ 5.705105781555176,
343
+ 5.623803615570068,
344
+ 5.92189359664917,
345
+ 5.629027366638184,
346
+ 5.775092601776123,
347
+ 5.485593318939209,
348
+ 5.631176948547363,
349
+ 5.494982719421387,
350
+ 5.808384418487549,
351
+ 5.863493919372559,
352
+ 6.302125453948975,
353
+ 6.260743141174316,
354
+ 5.992366313934326,
355
+ 5.812000751495361,
356
+ 5.726809024810791,
357
+ 6.287052631378174,
358
+ 6.431427001953125,
359
+ 6.304018974304199,
360
+ 5.953709602355957,
361
+ 5.819002628326416,
362
+ 5.967014789581299,
363
+ 6.170571327209473,
364
+ 5.907352924346924,
365
+ 6.637073993682861,
366
+ 6.517533302307129,
367
+ 6.117064476013184,
368
+ 7.001852989196777,
369
+ 6.690506935119629,
370
+ 6.350226402282715,
371
+ 6.781691074371338,
372
+ 6.612946033477783,
373
+ 6.837592601776123,
374
+ 6.9562530517578125,
375
+ 6.955945014953613,
376
+ 6.8619384765625,
377
+ 6.8229522705078125,
378
+ 6.776853084564209,
379
+ 6.681733131408691,
380
+ 7.203044414520264,
381
+ 7.105477333068848,
382
+ 7.122267723083496,
383
+ 7.313320636749268,
384
+ 7.1507110595703125,
385
+ 7.348789691925049,
386
+ 7.596556663513184,
387
+ 7.162447929382324,
388
+ 7.364682674407959,
389
+ 7.284327030181885,
390
+ 7.544772624969482,
391
+ 7.552750587463379,
392
+ 7.075843811035156,
393
+ 7.4447197914123535,
394
+ 7.248695373535156,
395
+ 7.463627338409424,
396
+ 7.157357692718506,
397
+ 7.733060359954834,
398
+ 7.493436336517334,
399
+ 7.573766231536865,
400
+ 7.504504680633545,
401
+ 8.034761428833008,
402
+ 7.897160053253174,
403
+ 7.699350833892822,
404
+ 8.125955581665039,
405
+ 7.7575812339782715,
406
+ 7.667728900909424,
407
+ 8.022278785705566,
408
+ 7.564481258392334,
409
+ 7.746945858001709,
410
+ 8.404248237609863,
411
+ 8.044464111328125,
412
+ 8.2490816116333,
413
+ 8.08022403717041,
414
+ 8.083806037902832,
415
+ 8.444177627563477,
416
+ 8.04827880859375,
417
+ 7.534134864807129,
418
+ 7.8122735023498535,
419
+ 8.019975662231445,
420
+ 8.39560604095459,
421
+ 7.957339763641357,
422
+ 7.929610729217529,
423
+ 8.102134704589844,
424
+ 7.836489200592041,
425
+ 8.171493530273438,
426
+ 8.428945541381836,
427
+ 8.878885269165039
428
+ ],
429
+ "traj_loss": [
430
+ 8.19656753540039,
431
+ 6.174752235412598,
432
+ 3.6749186515808105,
433
+ 2.0767037868499756,
434
+ 1.9746944904327393,
435
+ 1.9035608768463135,
436
+ 1.8333710432052612,
437
+ 1.5968981981277466,
438
+ 1.4106667041778564,
439
+ 1.0485219955444336,
440
+ 0.8456077575683594,
441
+ 0.6840745210647583,
442
+ 0.576360821723938,
443
+ 0.5324751734733582,
444
+ 0.5653428435325623,
445
+ 0.48987501859664917,
446
+ 0.5225178599357605,
447
+ 0.45138534903526306,
448
+ 0.48134496808052063,
449
+ 0.46532565355300903,
450
+ 0.48369553685188293,
451
+ 0.46262338757514954,
452
+ 0.39399561285972595,
453
+ 0.43695300817489624,
454
+ 0.4768427312374115,
455
+ 0.40846362709999084,
456
+ 0.370921790599823,
457
+ 0.379800021648407,
458
+ 0.40950125455856323,
459
+ 0.40514808893203735,
460
+ 0.3439994752407074,
461
+ 0.378735214471817,
462
+ 0.3764505982398987,
463
+ 0.3375002443790436,
464
+ 0.40516597032546997,
465
+ 0.3378102481365204,
466
+ 0.32366302609443665,
467
+ 0.27299144864082336,
468
+ 0.3120460510253906,
469
+ 0.32998213171958923,
470
+ 0.29561376571655273,
471
+ 0.32035765051841736,
472
+ 0.34422895312309265,
473
+ 0.30208900570869446,
474
+ 0.3147081732749939,
475
+ 0.28302285075187683,
476
+ 0.2785095274448395,
477
+ 0.29831022024154663,
478
+ 0.3001428246498108,
479
+ 0.3239130973815918,
480
+ 0.2967076897621155,
481
+ 0.2387605756521225,
482
+ 0.26391884684562683,
483
+ 0.23518602550029755,
484
+ 0.21849407255649567,
485
+ 0.23858387768268585,
486
+ 0.22966758906841278,
487
+ 0.20723779499530792,
488
+ 0.22682631015777588,
489
+ 0.22686277329921722,
490
+ 0.22665467858314514,
491
+ 0.18968234956264496,
492
+ 0.17524336278438568,
493
+ 0.1601996272802353,
494
+ 0.19637885689735413,
495
+ 0.19119633734226227,
496
+ 0.1982196718454361,
497
+ 0.23128293454647064,
498
+ 0.18582873046398163,
499
+ 0.1539458930492401,
500
+ 0.17985732853412628,
501
+ 0.14789120852947235,
502
+ 0.16555778682231903,
503
+ 0.19444096088409424,
504
+ 0.14263807237148285,
505
+ 0.14793552458286285,
506
+ 0.1666954904794693,
507
+ 0.13436809182167053,
508
+ 0.16305102407932281,
509
+ 0.1530444175004959,
510
+ 0.1297033727169037,
511
+ 0.14127017557621002,
512
+ 0.1536053568124771,
513
+ 0.16693377494812012,
514
+ 0.1334567666053772,
515
+ 0.1545870006084442,
516
+ 0.13757635653018951,
517
+ 0.16199088096618652,
518
+ 0.1365976631641388,
519
+ 0.17273524403572083,
520
+ 0.16408126056194305,
521
+ 0.11063436418771744,
522
+ 0.1141413077712059,
523
+ 0.11719079315662384,
524
+ 0.10229291021823883,
525
+ 0.13693299889564514,
526
+ 0.1288372129201889,
527
+ 0.12741807103157043,
528
+ 0.12175439298152924,
529
+ 0.13942940533161163,
530
+ 0.14633359014987946,
531
+ 0.1502499282360077,
532
+ 0.06561033427715302,
533
+ 0.08612960577011108,
534
+ 0.10161978751420975,
535
+ 0.10131406038999557,
536
+ 0.14991037547588348,
537
+ 0.09229905158281326,
538
+ 0.10011570900678635,
539
+ 0.08830741792917252,
540
+ 0.11489105224609375,
541
+ 0.08740802854299545,
542
+ 0.11967604607343674,
543
+ 0.09155561029911041,
544
+ 0.10326703637838364,
545
+ 0.08638112992048264,
546
+ 0.1381668746471405,
547
+ 0.07292013615369797,
548
+ 0.0654192790389061,
549
+ 0.09921061247587204,
550
+ 0.12048036605119705,
551
+ 0.08874920755624771,
552
+ 0.0922590121626854,
553
+ 0.06335466355085373,
554
+ 0.08874557912349701,
555
+ 0.07574910670518875,
556
+ 0.08914481103420258,
557
+ 0.06439266353845596,
558
+ 0.0929182767868042,
559
+ 0.06473211944103241,
560
+ 0.08692616969347,
561
+ 0.08532018214464188,
562
+ 0.09214209020137787,
563
+ 0.06132759526371956,
564
+ 0.063250832259655,
565
+ 0.07289229333400726,
566
+ 0.06275173276662827,
567
+ 0.07829402387142181,
568
+ 0.07211742550134659,
569
+ 0.06874485313892365
570
+ ],
571
+ "hinge_loss": [
572
+ 0.0,
573
+ 0.0,
574
+ 0.0,
575
+ 0.0,
576
+ 0.0,
577
+ 0.0,
578
+ 0.0,
579
+ 0.0,
580
+ 0.0,
581
+ 0.0,
582
+ 0.0,
583
+ 0.0,
584
+ 0.0,
585
+ 0.0,
586
+ 0.0,
587
+ 0.0,
588
+ 0.0,
589
+ 0.0,
590
+ 0.0,
591
+ 0.0,
592
+ 0.0,
593
+ 0.0,
594
+ 0.0,
595
+ 0.0,
596
+ 0.0,
597
+ 0.0,
598
+ 0.0,
599
+ 0.0,
600
+ 0.0,
601
+ 0.0,
602
+ 0.0,
603
+ 0.0,
604
+ 0.0,
605
+ 0.0,
606
+ 0.0,
607
+ 0.0,
608
+ 0.0,
609
+ 0.0,
610
+ 0.0,
611
+ 0.0,
612
+ 0.0,
613
+ 0.0,
614
+ 0.0,
615
+ 0.0,
616
+ 0.0,
617
+ 0.0,
618
+ 0.0,
619
+ 0.0,
620
+ 0.0,
621
+ 0.0,
622
+ 0.0,
623
+ 0.0,
624
+ 0.0,
625
+ 0.0,
626
+ 0.0,
627
+ 0.0,
628
+ 0.0,
629
+ 0.0,
630
+ 0.0,
631
+ 0.0,
632
+ 0.0,
633
+ 0.0,
634
+ 0.0,
635
+ 0.0,
636
+ 0.0,
637
+ 0.0,
638
+ 0.0,
639
+ 0.0,
640
+ 0.0,
641
+ 0.0,
642
+ 0.0,
643
+ 0.0,
644
+ 0.0,
645
+ 0.0,
646
+ 0.0,
647
+ 0.0,
648
+ 0.0,
649
+ 0.0,
650
+ 0.0,
651
+ 0.0,
652
+ 0.0,
653
+ 0.0,
654
+ 0.0,
655
+ 0.0,
656
+ 0.0,
657
+ 0.0,
658
+ 0.0,
659
+ 0.0,
660
+ 0.0,
661
+ 0.0,
662
+ 0.0,
663
+ 0.0,
664
+ 0.0,
665
+ 0.0,
666
+ 0.0,
667
+ 0.0,
668
+ 0.0,
669
+ 0.0,
670
+ 0.0,
671
+ 0.0,
672
+ 0.0,
673
+ 0.0,
674
+ 0.0,
675
+ 0.0,
676
+ 0.0,
677
+ 0.0,
678
+ 0.0,
679
+ 0.0,
680
+ 0.0,
681
+ 0.0,
682
+ 0.0,
683
+ 0.0,
684
+ 0.0,
685
+ 0.0,
686
+ 0.0,
687
+ 0.0,
688
+ 0.0,
689
+ 0.0,
690
+ 0.0,
691
+ 0.0,
692
+ 0.0,
693
+ 0.0,
694
+ 0.0,
695
+ 0.0,
696
+ 0.0,
697
+ 0.0,
698
+ 0.0,
699
+ 0.0,
700
+ 0.0,
701
+ 0.0,
702
+ 0.0,
703
+ 0.0,
704
+ 0.0,
705
+ 0.0,
706
+ 0.0,
707
+ 0.0,
708
+ 0.0,
709
+ 0.0,
710
+ 0.0,
711
+ 0.0
712
+ ],
713
+ "masked_traj_loss": [
714
+ 0.0,
715
+ 0.0,
716
+ 0.0,
717
+ 0.0,
718
+ 0.0,
719
+ 0.0,
720
+ 0.0,
721
+ 0.0,
722
+ 0.0,
723
+ 0.0,
724
+ 0.0,
725
+ 0.0,
726
+ 0.0,
727
+ 0.0,
728
+ 0.0,
729
+ 0.0,
730
+ 0.0,
731
+ 0.0,
732
+ 0.0,
733
+ 0.0,
734
+ 0.0,
735
+ 0.0,
736
+ 0.0,
737
+ 0.0,
738
+ 0.0,
739
+ 0.0,
740
+ 0.0,
741
+ 0.0,
742
+ 0.0,
743
+ 0.0,
744
+ 0.0,
745
+ 0.0,
746
+ 0.0,
747
+ 0.0,
748
+ 0.0,
749
+ 0.0,
750
+ 0.0,
751
+ 0.0,
752
+ 0.0,
753
+ 0.0,
754
+ 0.0,
755
+ 0.0,
756
+ 0.0,
757
+ 0.0,
758
+ 0.0,
759
+ 0.0,
760
+ 0.0,
761
+ 0.0,
762
+ 0.0,
763
+ 0.0,
764
+ 0.0,
765
+ 0.0,
766
+ 0.0,
767
+ 0.0,
768
+ 0.0,
769
+ 0.0,
770
+ 0.0,
771
+ 0.0,
772
+ 0.0,
773
+ 0.0,
774
+ 0.0,
775
+ 0.0,
776
+ 0.0,
777
+ 0.0,
778
+ 0.0,
779
+ 0.0,
780
+ 0.0,
781
+ 0.0,
782
+ 0.0,
783
+ 0.0,
784
+ 0.0,
785
+ 0.0,
786
+ 0.0,
787
+ 0.0,
788
+ 0.0,
789
+ 0.0,
790
+ 0.0,
791
+ 0.0,
792
+ 0.0,
793
+ 0.0,
794
+ 0.0,
795
+ 0.0,
796
+ 0.0,
797
+ 0.0,
798
+ 0.0,
799
+ 0.0,
800
+ 0.0,
801
+ 0.0,
802
+ 0.0,
803
+ 0.0,
804
+ 0.0,
805
+ 0.0,
806
+ 0.0,
807
+ 0.0,
808
+ 0.0,
809
+ 0.0,
810
+ 0.0,
811
+ 0.0,
812
+ 0.0,
813
+ 0.0,
814
+ 0.0,
815
+ 0.0,
816
+ 0.0,
817
+ 0.0,
818
+ 0.0,
819
+ 0.0,
820
+ 0.0,
821
+ 0.0,
822
+ 0.0,
823
+ 0.0,
824
+ 0.0,
825
+ 0.0,
826
+ 0.0,
827
+ 0.0,
828
+ 0.0,
829
+ 0.0,
830
+ 0.0,
831
+ 0.0,
832
+ 0.0,
833
+ 0.0,
834
+ 0.0,
835
+ 0.0,
836
+ 0.0,
837
+ 0.0,
838
+ 0.0,
839
+ 0.0,
840
+ 0.0,
841
+ 0.0,
842
+ 0.0,
843
+ 0.0,
844
+ 0.0,
845
+ 0.0,
846
+ 0.0,
847
+ 0.0,
848
+ 0.0,
849
+ 0.0,
850
+ 0.0,
851
+ 0.0,
852
+ 0.0,
853
+ 0.0
854
+ ],
855
+ "abs_loss": [
856
+ 0.0,
857
+ 0.0,
858
+ 0.0,
859
+ 0.0,
860
+ 0.0,
861
+ 0.0,
862
+ 0.0,
863
+ 0.0,
864
+ 0.0,
865
+ 0.0,
866
+ 0.0,
867
+ 0.0,
868
+ 0.0,
869
+ 0.0,
870
+ 0.0,
871
+ 0.0,
872
+ 0.0,
873
+ 0.0,
874
+ 0.0,
875
+ 0.0,
876
+ 0.0,
877
+ 0.0,
878
+ 0.0,
879
+ 0.0,
880
+ 0.0,
881
+ 0.0,
882
+ 0.0,
883
+ 0.0,
884
+ 0.0,
885
+ 0.0,
886
+ 0.0,
887
+ 0.0,
888
+ 0.0,
889
+ 0.0,
890
+ 0.0,
891
+ 0.0,
892
+ 0.0,
893
+ 0.0,
894
+ 0.0,
895
+ 0.0,
896
+ 0.0,
897
+ 0.0,
898
+ 0.0,
899
+ 0.0,
900
+ 0.0,
901
+ 0.0,
902
+ 0.0,
903
+ 0.0,
904
+ 0.0,
905
+ 0.0,
906
+ 0.0,
907
+ 0.0,
908
+ 0.0,
909
+ 0.0,
910
+ 0.0,
911
+ 0.0,
912
+ 0.0,
913
+ 0.0,
914
+ 0.0,
915
+ 0.0,
916
+ 0.0,
917
+ 0.0,
918
+ 0.0,
919
+ 0.0,
920
+ 0.0,
921
+ 0.0,
922
+ 0.0,
923
+ 0.0,
924
+ 0.0,
925
+ 0.0,
926
+ 0.0,
927
+ 0.0,
928
+ 0.0,
929
+ 0.0,
930
+ 0.0,
931
+ 0.0,
932
+ 0.0,
933
+ 0.0,
934
+ 0.0,
935
+ 0.0,
936
+ 0.0,
937
+ 0.0,
938
+ 0.0,
939
+ 0.0,
940
+ 0.0,
941
+ 0.0,
942
+ 0.0,
943
+ 0.0,
944
+ 0.0,
945
+ 0.0,
946
+ 0.0,
947
+ 0.0,
948
+ 0.0,
949
+ 0.0,
950
+ 0.0,
951
+ 0.0,
952
+ 0.0,
953
+ 0.0,
954
+ 0.0,
955
+ 0.0,
956
+ 0.0,
957
+ 0.0,
958
+ 0.0,
959
+ 0.0,
960
+ 0.0,
961
+ 0.0,
962
+ 0.0,
963
+ 0.0,
964
+ 0.0,
965
+ 0.0,
966
+ 0.0,
967
+ 0.0,
968
+ 0.0,
969
+ 0.0,
970
+ 0.0,
971
+ 0.0,
972
+ 0.0,
973
+ 0.0,
974
+ 0.0,
975
+ 0.0,
976
+ 0.0,
977
+ 0.0,
978
+ 0.0,
979
+ 0.0,
980
+ 0.0,
981
+ 0.0,
982
+ 0.0,
983
+ 0.0,
984
+ 0.0,
985
+ 0.0,
986
+ 0.0,
987
+ 0.0,
988
+ 0.0,
989
+ 0.0,
990
+ 0.0,
991
+ 0.0,
992
+ 0.0,
993
+ 0.0,
994
+ 0.0,
995
+ 0.0
996
+ ],
997
+ "zipf_loss": [
998
+ 0.0,
999
+ 0.0,
1000
+ 0.0,
1001
+ 0.0,
1002
+ 0.0,
1003
+ 0.0,
1004
+ 0.0,
1005
+ 0.0,
1006
+ 0.0,
1007
+ 0.0,
1008
+ 0.0,
1009
+ 0.0,
1010
+ 0.0,
1011
+ 0.0,
1012
+ 0.0,
1013
+ 0.0,
1014
+ 0.0,
1015
+ 0.0,
1016
+ 0.0,
1017
+ 0.0,
1018
+ 0.0,
1019
+ 0.0,
1020
+ 0.0,
1021
+ 0.0,
1022
+ 0.0,
1023
+ 0.0,
1024
+ 0.0,
1025
+ 0.0,
1026
+ 0.0,
1027
+ 0.0,
1028
+ 0.0,
1029
+ 0.0,
1030
+ 0.0,
1031
+ 0.0,
1032
+ 0.0,
1033
+ 0.0,
1034
+ 0.0,
1035
+ 0.0,
1036
+ 0.0,
1037
+ 0.0,
1038
+ 0.0,
1039
+ 0.0,
1040
+ 0.0,
1041
+ 0.0,
1042
+ 0.0,
1043
+ 0.0,
1044
+ 0.0,
1045
+ 0.0,
1046
+ 0.0,
1047
+ 0.0,
1048
+ 0.0,
1049
+ 0.0,
1050
+ 0.0,
1051
+ 0.0,
1052
+ 0.0,
1053
+ 0.0,
1054
+ 0.0,
1055
+ 0.0,
1056
+ 0.0,
1057
+ 0.0,
1058
+ 0.0,
1059
+ 0.0,
1060
+ 0.0,
1061
+ 0.0,
1062
+ 0.0,
1063
+ 0.0,
1064
+ 0.0,
1065
+ 0.0,
1066
+ 0.0,
1067
+ 0.0,
1068
+ 0.0,
1069
+ 0.0,
1070
+ 0.0,
1071
+ 0.0,
1072
+ 0.0,
1073
+ 0.0,
1074
+ 0.0,
1075
+ 0.0,
1076
+ 0.0,
1077
+ 0.0,
1078
+ 0.0,
1079
+ 0.0,
1080
+ 0.0,
1081
+ 0.0,
1082
+ 0.0,
1083
+ 0.0,
1084
+ 0.0,
1085
+ 0.0,
1086
+ 0.0,
1087
+ 0.0,
1088
+ 0.0,
1089
+ 0.0,
1090
+ 0.0,
1091
+ 0.0,
1092
+ 0.0,
1093
+ 0.0,
1094
+ 0.0,
1095
+ 0.0,
1096
+ 0.0,
1097
+ 0.0,
1098
+ 0.0,
1099
+ 0.0,
1100
+ 0.0,
1101
+ 0.0,
1102
+ 0.0,
1103
+ 0.0,
1104
+ 0.0,
1105
+ 0.0,
1106
+ 0.0,
1107
+ 0.0,
1108
+ 0.0,
1109
+ 0.0,
1110
+ 0.0,
1111
+ 0.0,
1112
+ 0.0,
1113
+ 0.0,
1114
+ 0.0,
1115
+ 0.0,
1116
+ 0.0,
1117
+ 0.0,
1118
+ 0.0,
1119
+ 0.0,
1120
+ 0.0,
1121
+ 0.0,
1122
+ 0.0,
1123
+ 0.0,
1124
+ 0.0,
1125
+ 0.0,
1126
+ 0.0,
1127
+ 0.0,
1128
+ 0.0,
1129
+ 0.0,
1130
+ 0.0,
1131
+ 0.0,
1132
+ 0.0,
1133
+ 0.0,
1134
+ 0.0,
1135
+ 0.0,
1136
+ 0.0,
1137
+ 0.0
1138
+ ],
1139
+ "ortho_loss": [
1140
+ 0.0,
1141
+ 0.0,
1142
+ 0.0,
1143
+ 0.0,
1144
+ 0.0,
1145
+ 0.0,
1146
+ 0.0,
1147
+ 0.0,
1148
+ 0.0,
1149
+ 0.0,
1150
+ 0.0,
1151
+ 0.0,
1152
+ 0.0,
1153
+ 0.0,
1154
+ 0.0,
1155
+ 0.0,
1156
+ 0.0,
1157
+ 0.0,
1158
+ 0.0,
1159
+ 0.0,
1160
+ 0.0,
1161
+ 0.0,
1162
+ 0.0,
1163
+ 0.0,
1164
+ 0.0,
1165
+ 0.0,
1166
+ 0.0,
1167
+ 0.0,
1168
+ 0.0,
1169
+ 0.0,
1170
+ 0.0,
1171
+ 0.0,
1172
+ 0.0,
1173
+ 0.0,
1174
+ 0.0,
1175
+ 0.0,
1176
+ 0.0,
1177
+ 0.0,
1178
+ 0.0,
1179
+ 0.0,
1180
+ 0.0,
1181
+ 0.0,
1182
+ 0.0,
1183
+ 0.0,
1184
+ 0.0,
1185
+ 0.0,
1186
+ 0.0,
1187
+ 0.0,
1188
+ 0.0,
1189
+ 0.0,
1190
+ 0.0,
1191
+ 0.0,
1192
+ 0.0,
1193
+ 0.0,
1194
+ 0.0,
1195
+ 0.0,
1196
+ 0.0,
1197
+ 0.0,
1198
+ 0.0,
1199
+ 0.0,
1200
+ 0.0,
1201
+ 0.0,
1202
+ 0.0,
1203
+ 0.0,
1204
+ 0.0,
1205
+ 0.0,
1206
+ 0.0,
1207
+ 0.0,
1208
+ 0.0,
1209
+ 0.0,
1210
+ 0.0,
1211
+ 0.0,
1212
+ 0.0,
1213
+ 0.0,
1214
+ 0.0,
1215
+ 0.0,
1216
+ 0.0,
1217
+ 0.0,
1218
+ 0.0,
1219
+ 0.0,
1220
+ 0.0,
1221
+ 0.0,
1222
+ 0.0,
1223
+ 0.0,
1224
+ 0.0,
1225
+ 0.0,
1226
+ 0.0,
1227
+ 0.0,
1228
+ 0.0,
1229
+ 0.0,
1230
+ 0.0,
1231
+ 0.0,
1232
+ 0.0,
1233
+ 0.0,
1234
+ 0.0,
1235
+ 0.0,
1236
+ 0.0,
1237
+ 0.0,
1238
+ 0.0,
1239
+ 0.0,
1240
+ 0.0,
1241
+ 0.0,
1242
+ 0.0,
1243
+ 0.0,
1244
+ 0.0,
1245
+ 0.0,
1246
+ 0.0,
1247
+ 0.0,
1248
+ 0.0,
1249
+ 0.0,
1250
+ 0.0,
1251
+ 0.0,
1252
+ 0.0,
1253
+ 0.0,
1254
+ 0.0,
1255
+ 0.0,
1256
+ 0.0,
1257
+ 0.0,
1258
+ 0.0,
1259
+ 0.0,
1260
+ 0.0,
1261
+ 0.0,
1262
+ 0.0,
1263
+ 0.0,
1264
+ 0.0,
1265
+ 0.0,
1266
+ 0.0,
1267
+ 0.0,
1268
+ 0.0,
1269
+ 0.0,
1270
+ 0.0,
1271
+ 0.0,
1272
+ 0.0,
1273
+ 0.0,
1274
+ 0.0,
1275
+ 0.0,
1276
+ 0.0,
1277
+ 0.0,
1278
+ 0.0,
1279
+ 0.0
1280
+ ],
1281
+ "anchor_loss": [
1282
+ 0.0,
1283
+ 0.0,
1284
+ 0.0,
1285
+ 0.0,
1286
+ 0.0,
1287
+ 0.0,
1288
+ 0.0,
1289
+ 0.0,
1290
+ 0.0,
1291
+ 0.0,
1292
+ 0.0,
1293
+ 0.0,
1294
+ 0.0,
1295
+ 0.0,
1296
+ 0.0,
1297
+ 0.0,
1298
+ 0.0,
1299
+ 0.0,
1300
+ 0.0,
1301
+ 0.0,
1302
+ 0.0,
1303
+ 0.0,
1304
+ 0.0,
1305
+ 0.0,
1306
+ 0.0,
1307
+ 0.0,
1308
+ 0.0,
1309
+ 0.0,
1310
+ 0.0,
1311
+ 0.0,
1312
+ 0.0,
1313
+ 0.0,
1314
+ 0.0,
1315
+ 0.0,
1316
+ 0.0,
1317
+ 0.0,
1318
+ 0.0,
1319
+ 0.0,
1320
+ 0.0,
1321
+ 0.0,
1322
+ 0.0,
1323
+ 0.0,
1324
+ 0.0,
1325
+ 0.0,
1326
+ 0.0,
1327
+ 0.0,
1328
+ 0.0,
1329
+ 0.0,
1330
+ 0.0,
1331
+ 0.0,
1332
+ 0.0,
1333
+ 0.0,
1334
+ 0.0,
1335
+ 0.0,
1336
+ 0.0,
1337
+ 0.0,
1338
+ 0.0,
1339
+ 0.0,
1340
+ 0.0,
1341
+ 0.0,
1342
+ 0.0,
1343
+ 0.0,
1344
+ 0.0,
1345
+ 0.0,
1346
+ 0.0,
1347
+ 0.0,
1348
+ 0.0,
1349
+ 0.0,
1350
+ 0.0,
1351
+ 0.0,
1352
+ 0.0,
1353
+ 0.0,
1354
+ 0.0,
1355
+ 0.0,
1356
+ 0.0,
1357
+ 0.0,
1358
+ 0.0,
1359
+ 0.0,
1360
+ 0.0,
1361
+ 0.0,
1362
+ 0.0,
1363
+ 0.0,
1364
+ 0.0,
1365
+ 0.0,
1366
+ 0.0,
1367
+ 0.0,
1368
+ 0.0,
1369
+ 0.0,
1370
+ 0.0,
1371
+ 0.0,
1372
+ 0.0,
1373
+ 0.0,
1374
+ 0.0,
1375
+ 0.0,
1376
+ 0.0,
1377
+ 0.0,
1378
+ 0.0,
1379
+ 0.0,
1380
+ 0.0,
1381
+ 0.0,
1382
+ 0.0,
1383
+ 0.0,
1384
+ 0.0,
1385
+ 0.0,
1386
+ 0.0,
1387
+ 0.0,
1388
+ 0.0,
1389
+ 0.0,
1390
+ 0.0,
1391
+ 0.0,
1392
+ 0.0,
1393
+ 0.0,
1394
+ 0.0,
1395
+ 0.0,
1396
+ 0.0,
1397
+ 0.0,
1398
+ 0.0,
1399
+ 0.0,
1400
+ 0.0,
1401
+ 0.0,
1402
+ 0.0,
1403
+ 0.0,
1404
+ 0.0,
1405
+ 0.0,
1406
+ 0.0,
1407
+ 0.0,
1408
+ 0.0,
1409
+ 0.0,
1410
+ 0.0,
1411
+ 0.0,
1412
+ 0.0,
1413
+ 0.0,
1414
+ 0.0,
1415
+ 0.0,
1416
+ 0.0,
1417
+ 0.0,
1418
+ 0.0,
1419
+ 0.0,
1420
+ 0.0,
1421
+ 0.0
1422
+ ],
1423
+ "jacobi_loss": [
1424
+ 0.0,
1425
+ 0.0,
1426
+ 0.0,
1427
+ 0.0,
1428
+ 0.0,
1429
+ 0.0,
1430
+ 0.0,
1431
+ 0.0,
1432
+ 0.0,
1433
+ 0.0,
1434
+ 0.0,
1435
+ 0.0,
1436
+ 0.0,
1437
+ 0.0,
1438
+ 0.0,
1439
+ 0.0,
1440
+ 0.0,
1441
+ 0.0,
1442
+ 0.0,
1443
+ 0.0,
1444
+ 0.0,
1445
+ 0.0,
1446
+ 0.0,
1447
+ 0.0,
1448
+ 0.0,
1449
+ 0.0,
1450
+ 0.0,
1451
+ 0.0,
1452
+ 0.0,
1453
+ 0.0,
1454
+ 0.0,
1455
+ 0.0,
1456
+ 0.0,
1457
+ 0.0,
1458
+ 0.0,
1459
+ 0.0,
1460
+ 0.0,
1461
+ 0.0,
1462
+ 0.0,
1463
+ 0.0,
1464
+ 0.0,
1465
+ 0.0,
1466
+ 0.0,
1467
+ 0.0,
1468
+ 0.0,
1469
+ 0.0,
1470
+ 0.0,
1471
+ 0.0,
1472
+ 0.0,
1473
+ 0.0,
1474
+ 0.0,
1475
+ 0.0,
1476
+ 0.0,
1477
+ 0.0,
1478
+ 0.0,
1479
+ 0.0,
1480
+ 0.0,
1481
+ 0.0,
1482
+ 0.0,
1483
+ 0.0,
1484
+ 0.0,
1485
+ 0.0,
1486
+ 0.0,
1487
+ 0.0,
1488
+ 0.0,
1489
+ 0.0,
1490
+ 0.0,
1491
+ 0.0,
1492
+ 0.0,
1493
+ 0.0,
1494
+ 0.0,
1495
+ 0.0,
1496
+ 0.0,
1497
+ 0.0,
1498
+ 0.0,
1499
+ 0.0,
1500
+ 0.0,
1501
+ 0.0,
1502
+ 0.0,
1503
+ 0.0,
1504
+ 0.0,
1505
+ 0.0,
1506
+ 0.0,
1507
+ 0.0,
1508
+ 0.0,
1509
+ 0.0,
1510
+ 0.0,
1511
+ 0.0,
1512
+ 0.0,
1513
+ 0.0,
1514
+ 0.0,
1515
+ 0.0,
1516
+ 0.0,
1517
+ 0.0,
1518
+ 0.0,
1519
+ 0.0,
1520
+ 0.0,
1521
+ 0.0,
1522
+ 0.0,
1523
+ 0.0,
1524
+ 0.0,
1525
+ 0.0,
1526
+ 0.0,
1527
+ 0.0,
1528
+ 0.0,
1529
+ 0.0,
1530
+ 0.0,
1531
+ 0.0,
1532
+ 0.0,
1533
+ 0.0,
1534
+ 0.0,
1535
+ 0.0,
1536
+ 0.0,
1537
+ 0.0,
1538
+ 0.0,
1539
+ 0.0,
1540
+ 0.0,
1541
+ 0.0,
1542
+ 0.0,
1543
+ 0.0,
1544
+ 0.0,
1545
+ 0.0,
1546
+ 0.0,
1547
+ 0.0,
1548
+ 0.0,
1549
+ 0.0,
1550
+ 0.0,
1551
+ 0.0,
1552
+ 0.0,
1553
+ 0.0,
1554
+ 0.0,
1555
+ 0.0,
1556
+ 0.0,
1557
+ 0.0,
1558
+ 0.0,
1559
+ 0.0,
1560
+ 0.0,
1561
+ 0.0,
1562
+ 0.0,
1563
+ 0.0
1564
+ ],
1565
+ "lr": [
1566
+ 1.6752136752136756e-05,
1567
+ 3.384615384615385e-05,
1568
+ 5.094017094017095e-05,
1569
+ 6.803418803418804e-05,
1570
+ 8e-05,
1571
+ 8e-05,
1572
+ 8e-05,
1573
+ 8e-05,
1574
+ 8e-05,
1575
+ 8e-05,
1576
+ 8e-05,
1577
+ 8e-05,
1578
+ 8e-05,
1579
+ 8e-05,
1580
+ 8e-05,
1581
+ 8e-05,
1582
+ 8e-05,
1583
+ 8e-05,
1584
+ 8e-05,
1585
+ 8e-05,
1586
+ 8e-05,
1587
+ 8e-05,
1588
+ 8e-05,
1589
+ 8e-05,
1590
+ 8e-05,
1591
+ 8e-05,
1592
+ 8e-05,
1593
+ 8e-05,
1594
+ 8e-05,
1595
+ 8e-05,
1596
+ 8e-05,
1597
+ 8e-05,
1598
+ 8e-05,
1599
+ 8e-05,
1600
+ 8e-05,
1601
+ 8e-05,
1602
+ 8e-05,
1603
+ 8e-05,
1604
+ 8e-05,
1605
+ 8e-05,
1606
+ 8e-05,
1607
+ 8e-05,
1608
+ 8e-05,
1609
+ 8e-05,
1610
+ 8e-05,
1611
+ 8e-05,
1612
+ 8e-05,
1613
+ 8e-05,
1614
+ 8e-05,
1615
+ 8e-05,
1616
+ 8e-05,
1617
+ 8e-05,
1618
+ 8e-05,
1619
+ 8e-05,
1620
+ 8e-05,
1621
+ 8e-05,
1622
+ 8e-05,
1623
+ 8e-05,
1624
+ 8e-05,
1625
+ 8e-05,
1626
+ 8e-05,
1627
+ 8e-05,
1628
+ 8e-05,
1629
+ 8e-05,
1630
+ 8e-05,
1631
+ 8e-05,
1632
+ 8e-05,
1633
+ 8e-05,
1634
+ 8e-05,
1635
+ 8e-05,
1636
+ 8e-05,
1637
+ 8e-05,
1638
+ 8e-05,
1639
+ 8e-05,
1640
+ 8e-05,
1641
+ 8e-05,
1642
+ 8e-05,
1643
+ 8e-05,
1644
+ 8e-05,
1645
+ 8e-05,
1646
+ 8e-05,
1647
+ 8e-05,
1648
+ 8e-05,
1649
+ 8e-05,
1650
+ 8e-05,
1651
+ 7.987186923279727e-05,
1652
+ 7.868547324017929e-05,
1653
+ 7.74990772475613e-05,
1654
+ 7.631268125494332e-05,
1655
+ 7.512628526232533e-05,
1656
+ 7.393988926970736e-05,
1657
+ 7.178064856314262e-05,
1658
+ 7.059425257052466e-05,
1659
+ 6.940785657790668e-05,
1660
+ 6.822146058528868e-05,
1661
+ 6.703506459267071e-05,
1662
+ 6.584866860005273e-05,
1663
+ 6.466227260743475e-05,
1664
+ 6.250303190087003e-05,
1665
+ 6.131663590825203e-05,
1666
+ 6.0130239915634074e-05,
1667
+ 5.894384392301608e-05,
1668
+ 5.77574479303981e-05,
1669
+ 5.657105193778013e-05,
1670
+ 5.538465594516214e-05,
1671
+ 5.3225415238597426e-05,
1672
+ 5.203901924597944e-05,
1673
+ 5.0852623253361464e-05,
1674
+ 4.966622726074349e-05,
1675
+ 4.8479831268125495e-05,
1676
+ 4.729343527550752e-05,
1677
+ 4.610703928288953e-05,
1678
+ 4.3947798576324816e-05,
1679
+ 4.276140258370682e-05,
1680
+ 4.157500659108885e-05,
1681
+ 4.038861059847088e-05,
1682
+ 3.9202214605852886e-05,
1683
+ 3.801581861323492e-05,
1684
+ 3.6829422620616924e-05,
1685
+ 3.46701819140522e-05,
1686
+ 3.348378592143423e-05,
1687
+ 3.229738992881624e-05,
1688
+ 3.111099393619827e-05,
1689
+ 2.9924597943580276e-05,
1690
+ 2.8738201950962302e-05,
1691
+ 2.7551805958344328e-05,
1692
+ 2.5392565251779594e-05,
1693
+ 2.4206169259161623e-05,
1694
+ 2.3019773266543632e-05,
1695
+ 2.1833377273925658e-05,
1696
+ 2.0646981281307667e-05,
1697
+ 1.9460585288689693e-05,
1698
+ 1.8274189296071722e-05,
1699
+ 1.6114948589506984e-05,
1700
+ 1.4928552596889012e-05,
1701
+ 1.374215660427102e-05,
1702
+ 1.2555760611653047e-05,
1703
+ 1.1369364619035074e-05,
1704
+ 1.0182968626417082e-05,
1705
+ 8.99657263379911e-06
1706
+ ]
1707
+ },
1708
+ "final_accuracy": 0.6429166666666667,
1709
+ "sft_eval": {
1710
+ "config": {
1711
+ "ops": "add_sub",
1712
+ "K": null,
1713
+ "mode": "sft",
1714
+ "n_digits": 6,
1715
+ "n_per_split": 100
1716
+ },
1717
+ "splits": {
1718
+ "add_S0": {
1719
+ "full_accuracy": 0.0,
1720
+ "digit_accuracy": 0.08714285714285715,
1721
+ "n_examples": 100,
1722
+ "per_subtask": {
1723
+ "SA": {
1724
+ "accuracy": 0.09256198347107437,
1725
+ "count": 605
1726
+ },
1727
+ "SS": {
1728
+ "accuracy": 0.05263157894736842,
1729
+ "count": 95
1730
+ }
1731
+ }
1732
+ },
1733
+ "add_S1": {
1734
+ "full_accuracy": 0.0,
1735
+ "digit_accuracy": 0.08571428571428572,
1736
+ "n_examples": 100,
1737
+ "per_subtask": {
1738
+ "SA": {
1739
+ "accuracy": 0.07352941176470588,
1740
+ "count": 204
1741
+ },
1742
+ "SC": {
1743
+ "accuracy": 0.07692307692307693,
1744
+ "count": 169
1745
+ },
1746
+ "SS": {
1747
+ "accuracy": 0.03225806451612903,
1748
+ "count": 31
1749
+ },
1750
+ "UC": {
1751
+ "accuracy": 0.10472972972972973,
1752
+ "count": 296
1753
+ }
1754
+ }
1755
+ },
1756
+ "add_S2": {
1757
+ "full_accuracy": 0.0,
1758
+ "digit_accuracy": 0.09571428571428571,
1759
+ "n_examples": 100,
1760
+ "per_subtask": {
1761
+ "SA": {
1762
+ "accuracy": 0.10429447852760736,
1763
+ "count": 163
1764
+ },
1765
+ "SC": {
1766
+ "accuracy": 0.1076923076923077,
1767
+ "count": 130
1768
+ },
1769
+ "SS": {
1770
+ "accuracy": 0.06896551724137931,
1771
+ "count": 87
1772
+ },
1773
+ "UC": {
1774
+ "accuracy": 0.09852216748768473,
1775
+ "count": 203
1776
+ },
1777
+ "US": {
1778
+ "accuracy": 0.08547008547008547,
1779
+ "count": 117
1780
+ }
1781
+ }
1782
+ },
1783
+ "add_S3": {
1784
+ "full_accuracy": 0.0,
1785
+ "digit_accuracy": 0.09428571428571429,
1786
+ "n_examples": 100,
1787
+ "per_subtask": {
1788
+ "SA": {
1789
+ "accuracy": 0.10743801652892562,
1790
+ "count": 121
1791
+ },
1792
+ "SC": {
1793
+ "accuracy": 0.11570247933884298,
1794
+ "count": 121
1795
+ },
1796
+ "SS": {
1797
+ "accuracy": 0.061224489795918366,
1798
+ "count": 49
1799
+ },
1800
+ "UC": {
1801
+ "accuracy": 0.11290322580645161,
1802
+ "count": 186
1803
+ },
1804
+ "US": {
1805
+ "accuracy": 0.06726457399103139,
1806
+ "count": 223
1807
+ }
1808
+ }
1809
+ },
1810
+ "add_S4": {
1811
+ "full_accuracy": 0.0,
1812
+ "digit_accuracy": 0.07428571428571429,
1813
+ "n_examples": 100,
1814
+ "per_subtask": {
1815
+ "SA": {
1816
+ "accuracy": 0.0673076923076923,
1817
+ "count": 104
1818
+ },
1819
+ "SC": {
1820
+ "accuracy": 0.11320754716981132,
1821
+ "count": 106
1822
+ },
1823
+ "SS": {
1824
+ "accuracy": 0.043478260869565216,
1825
+ "count": 23
1826
+ },
1827
+ "UC": {
1828
+ "accuracy": 0.09375,
1829
+ "count": 160
1830
+ },
1831
+ "US": {
1832
+ "accuracy": 0.05537459283387622,
1833
+ "count": 307
1834
+ }
1835
+ }
1836
+ },
1837
+ "add_S5": {
1838
+ "full_accuracy": 0.0,
1839
+ "digit_accuracy": 0.08,
1840
+ "n_examples": 100,
1841
+ "per_subtask": {
1842
+ "SA": {
1843
+ "accuracy": 0.05,
1844
+ "count": 100
1845
+ },
1846
+ "SC": {
1847
+ "accuracy": 0.14,
1848
+ "count": 100
1849
+ },
1850
+ "UC": {
1851
+ "accuracy": 0.11,
1852
+ "count": 100
1853
+ },
1854
+ "US": {
1855
+ "accuracy": 0.065,
1856
+ "count": 400
1857
+ }
1858
+ }
1859
+ },
1860
+ "add_S6": {
1861
+ "full_accuracy": 0.0,
1862
+ "digit_accuracy": 0.07571428571428572,
1863
+ "n_examples": 100,
1864
+ "per_subtask": {
1865
+ "SC": {
1866
+ "accuracy": 0.03,
1867
+ "count": 100
1868
+ },
1869
+ "UC": {
1870
+ "accuracy": 0.15,
1871
+ "count": 100
1872
+ },
1873
+ "US": {
1874
+ "accuracy": 0.07,
1875
+ "count": 500
1876
+ }
1877
+ }
1878
+ },
1879
+ "add_random": {
1880
+ "full_accuracy": 0.0,
1881
+ "digit_accuracy": 0.1,
1882
+ "n_examples": 200,
1883
+ "per_subtask": {
1884
+ "SA": {
1885
+ "accuracy": 0.09619686800894854,
1886
+ "count": 447
1887
+ },
1888
+ "SC": {
1889
+ "accuracy": 0.1,
1890
+ "count": 320
1891
+ },
1892
+ "SS": {
1893
+ "accuracy": 0.05357142857142857,
1894
+ "count": 56
1895
+ },
1896
+ "UC": {
1897
+ "accuracy": 0.11342155009451796,
1898
+ "count": 529
1899
+ },
1900
+ "US": {
1901
+ "accuracy": 0.041666666666666664,
1902
+ "count": 48
1903
+ }
1904
+ }
1905
+ },
1906
+ "add_C3": {
1907
+ "full_accuracy": 0.0,
1908
+ "digit_accuracy": 0.09428571428571429,
1909
+ "n_examples": 100,
1910
+ "per_subtask": {
1911
+ "SA": {
1912
+ "accuracy": 0.10666666666666667,
1913
+ "count": 300
1914
+ },
1915
+ "SC": {
1916
+ "accuracy": 0.15,
1917
+ "count": 100
1918
+ },
1919
+ "UC": {
1920
+ "accuracy": 0.06735751295336788,
1921
+ "count": 193
1922
+ },
1923
+ "US": {
1924
+ "accuracy": 0.056074766355140186,
1925
+ "count": 107
1926
+ }
1927
+ }
1928
+ },
1929
+ "add_C4": {
1930
+ "full_accuracy": 0.0,
1931
+ "digit_accuracy": 0.09428571428571429,
1932
+ "n_examples": 100,
1933
+ "per_subtask": {
1934
+ "SA": {
1935
+ "accuracy": 0.05,
1936
+ "count": 200
1937
+ },
1938
+ "SC": {
1939
+ "accuracy": 0.14,
1940
+ "count": 100
1941
+ },
1942
+ "UC": {
1943
+ "accuracy": 0.1171875,
1944
+ "count": 256
1945
+ },
1946
+ "US": {
1947
+ "accuracy": 0.08333333333333333,
1948
+ "count": 144
1949
+ }
1950
+ }
1951
+ },
1952
+ "add_C5": {
1953
+ "full_accuracy": 0.0,
1954
+ "digit_accuracy": 0.06,
1955
+ "n_examples": 100,
1956
+ "per_subtask": {
1957
+ "SA": {
1958
+ "accuracy": 0.05,
1959
+ "count": 100
1960
+ },
1961
+ "SC": {
1962
+ "accuracy": 0.05,
1963
+ "count": 100
1964
+ },
1965
+ "UC": {
1966
+ "accuracy": 0.06862745098039216,
1967
+ "count": 306
1968
+ },
1969
+ "US": {
1970
+ "accuracy": 0.05670103092783505,
1971
+ "count": 194
1972
+ }
1973
+ }
1974
+ },
1975
+ "add_C6": {
1976
+ "full_accuracy": 0.0,
1977
+ "digit_accuracy": 0.09714285714285714,
1978
+ "n_examples": 100,
1979
+ "per_subtask": {
1980
+ "SC": {
1981
+ "accuracy": 0.15,
1982
+ "count": 100
1983
+ },
1984
+ "UC": {
1985
+ "accuracy": 0.1092896174863388,
1986
+ "count": 366
1987
+ },
1988
+ "US": {
1989
+ "accuracy": 0.05555555555555555,
1990
+ "count": 234
1991
+ }
1992
+ }
1993
+ },
1994
+ "sub_M0": {
1995
+ "full_accuracy": 0.0,
1996
+ "digit_accuracy": 0.06857142857142857,
1997
+ "n_examples": 100,
1998
+ "per_subtask": {
1999
+ "MD": {
2000
+ "accuracy": 0.07154742096505824,
2001
+ "count": 601
2002
+ },
2003
+ "ME": {
2004
+ "accuracy": 0.050505050505050504,
2005
+ "count": 99
2006
+ }
2007
+ }
2008
+ },
2009
+ "sub_M1": {
2010
+ "full_accuracy": 0.0,
2011
+ "digit_accuracy": 0.10714285714285714,
2012
+ "n_examples": 100,
2013
+ "per_subtask": {
2014
+ "MD": {
2015
+ "accuracy": 0.08960573476702509,
2016
+ "count": 279
2017
+ },
2018
+ "MB": {
2019
+ "accuracy": 0.10344827586206896,
2020
+ "count": 145
2021
+ },
2022
+ "ME": {
2023
+ "accuracy": 0.08333333333333333,
2024
+ "count": 24
2025
+ },
2026
+ "UB": {
2027
+ "accuracy": 0.13095238095238096,
2028
+ "count": 252
2029
+ }
2030
+ }
2031
+ },
2032
+ "sub_M2": {
2033
+ "full_accuracy": 0.0,
2034
+ "digit_accuracy": 0.08571428571428572,
2035
+ "n_examples": 100,
2036
+ "per_subtask": {
2037
+ "MD": {
2038
+ "accuracy": 0.06103286384976526,
2039
+ "count": 213
2040
+ },
2041
+ "MB": {
2042
+ "accuracy": 0.11504424778761062,
2043
+ "count": 113
2044
+ },
2045
+ "ME": {
2046
+ "accuracy": 0.09411764705882353,
2047
+ "count": 85
2048
+ },
2049
+ "UB": {
2050
+ "accuracy": 0.12154696132596685,
2051
+ "count": 181
2052
+ },
2053
+ "UD": {
2054
+ "accuracy": 0.037037037037037035,
2055
+ "count": 108
2056
+ }
2057
+ }
2058
+ },
2059
+ "sub_M3": {
2060
+ "full_accuracy": 0.0,
2061
+ "digit_accuracy": 0.09857142857142857,
2062
+ "n_examples": 100,
2063
+ "per_subtask": {
2064
+ "MD": {
2065
+ "accuracy": 0.05027932960893855,
2066
+ "count": 179
2067
+ },
2068
+ "MB": {
2069
+ "accuracy": 0.1262135922330097,
2070
+ "count": 103
2071
+ },
2072
+ "ME": {
2073
+ "accuracy": 0.10714285714285714,
2074
+ "count": 56
2075
+ },
2076
+ "UB": {
2077
+ "accuracy": 0.14093959731543623,
2078
+ "count": 149
2079
+ },
2080
+ "UD": {
2081
+ "accuracy": 0.09389671361502347,
2082
+ "count": 213
2083
+ }
2084
+ }
2085
+ },
2086
+ "sub_M4": {
2087
+ "full_accuracy": 0.0,
2088
+ "digit_accuracy": 0.06714285714285714,
2089
+ "n_examples": 100,
2090
+ "per_subtask": {
2091
+ "MD": {
2092
+ "accuracy": 0.05,
2093
+ "count": 200
2094
+ },
2095
+ "MB": {
2096
+ "accuracy": 0.12,
2097
+ "count": 100
2098
+ },
2099
+ "UB": {
2100
+ "accuracy": 0.08,
2101
+ "count": 100
2102
+ },
2103
+ "UD": {
2104
+ "accuracy": 0.056666666666666664,
2105
+ "count": 300
2106
+ }
2107
+ }
2108
+ },
2109
+ "sub_M5": {
2110
+ "full_accuracy": 0.0,
2111
+ "digit_accuracy": 0.08857142857142856,
2112
+ "n_examples": 100,
2113
+ "per_subtask": {
2114
+ "MD": {
2115
+ "accuracy": 0.01,
2116
+ "count": 100
2117
+ },
2118
+ "MB": {
2119
+ "accuracy": 0.1,
2120
+ "count": 100
2121
+ },
2122
+ "UB": {
2123
+ "accuracy": 0.13,
2124
+ "count": 100
2125
+ },
2126
+ "UD": {
2127
+ "accuracy": 0.095,
2128
+ "count": 400
2129
+ }
2130
+ }
2131
+ },
2132
+ "sub_random": {
2133
+ "full_accuracy": 0.0,
2134
+ "digit_accuracy": 0.085,
2135
+ "n_examples": 200,
2136
+ "per_subtask": {
2137
+ "MD": {
2138
+ "accuracy": 0.056666666666666664,
2139
+ "count": 600
2140
+ },
2141
+ "MB": {
2142
+ "accuracy": 0.1198501872659176,
2143
+ "count": 267
2144
+ },
2145
+ "ME": {
2146
+ "accuracy": 0.07547169811320754,
2147
+ "count": 53
2148
+ },
2149
+ "UB": {
2150
+ "accuracy": 0.1070615034168565,
2151
+ "count": 439
2152
+ },
2153
+ "UD": {
2154
+ "accuracy": 0.04878048780487805,
2155
+ "count": 41
2156
+ }
2157
+ }
2158
+ },
2159
+ "sub_B3": {
2160
+ "full_accuracy": 0.0,
2161
+ "digit_accuracy": 0.08857142857142856,
2162
+ "n_examples": 100,
2163
+ "per_subtask": {
2164
+ "MD": {
2165
+ "accuracy": 0.07333333333333333,
2166
+ "count": 300
2167
+ },
2168
+ "MB": {
2169
+ "accuracy": 0.08,
2170
+ "count": 100
2171
+ },
2172
+ "UB": {
2173
+ "accuracy": 0.14213197969543148,
2174
+ "count": 197
2175
+ },
2176
+ "UD": {
2177
+ "accuracy": 0.038834951456310676,
2178
+ "count": 103
2179
+ }
2180
+ }
2181
+ },
2182
+ "sub_B4": {
2183
+ "full_accuracy": 0.0,
2184
+ "digit_accuracy": 0.08857142857142856,
2185
+ "n_examples": 100,
2186
+ "per_subtask": {
2187
+ "MD": {
2188
+ "accuracy": 0.095,
2189
+ "count": 200
2190
+ },
2191
+ "MB": {
2192
+ "accuracy": 0.09,
2193
+ "count": 100
2194
+ },
2195
+ "UB": {
2196
+ "accuracy": 0.10931174089068826,
2197
+ "count": 247
2198
+ },
2199
+ "UD": {
2200
+ "accuracy": 0.0457516339869281,
2201
+ "count": 153
2202
+ }
2203
+ }
2204
+ },
2205
+ "sub_B5": {
2206
+ "full_accuracy": 0.0,
2207
+ "digit_accuracy": 0.08571428571428572,
2208
+ "n_examples": 100,
2209
+ "per_subtask": {
2210
+ "MD": {
2211
+ "accuracy": 0.01,
2212
+ "count": 100
2213
+ },
2214
+ "MB": {
2215
+ "accuracy": 0.11,
2216
+ "count": 100
2217
+ },
2218
+ "UB": {
2219
+ "accuracy": 0.12416107382550336,
2220
+ "count": 298
2221
+ },
2222
+ "UD": {
2223
+ "accuracy": 0.054455445544554455,
2224
+ "count": 202
2225
+ }
2226
+ }
2227
+ }
2228
+ },
2229
+ "summary": {
2230
+ "overall_accuracy": 0.0,
2231
+ "digit_accuracy": 0.08678571428571429,
2232
+ "total_examples": 2400,
2233
+ "n_splits": 22
2234
+ }
2235
+ },
2236
+ "sorl_eval": {
2237
+ "config": {
2238
+ "ops": "add_sub",
2239
+ "K": 1,
2240
+ "mode": "sorl",
2241
+ "n_digits": 6,
2242
+ "n_per_split": 100
2243
+ },
2244
+ "splits": {
2245
+ "add_S0": {
2246
+ "full_accuracy": 0.96,
2247
+ "digit_accuracy": 0.9942857142857143,
2248
+ "n_examples": 100,
2249
+ "per_subtask": {
2250
+ "SA": {
2251
+ "accuracy": 0.9933884297520661,
2252
+ "count": 605
2253
+ },
2254
+ "SS": {
2255
+ "accuracy": 1.0,
2256
+ "count": 95
2257
+ }
2258
+ }
2259
+ },
2260
+ "add_S1": {
2261
+ "full_accuracy": 0.96,
2262
+ "digit_accuracy": 0.9942857142857143,
2263
+ "n_examples": 100,
2264
+ "per_subtask": {
2265
+ "SA": {
2266
+ "accuracy": 0.9950980392156863,
2267
+ "count": 204
2268
+ },
2269
+ "SC": {
2270
+ "accuracy": 0.9940828402366864,
2271
+ "count": 169
2272
+ },
2273
+ "SS": {
2274
+ "accuracy": 1.0,
2275
+ "count": 31
2276
+ },
2277
+ "UC": {
2278
+ "accuracy": 0.9932432432432432,
2279
+ "count": 296
2280
+ }
2281
+ }
2282
+ },
2283
+ "add_S2": {
2284
+ "full_accuracy": 0.87,
2285
+ "digit_accuracy": 0.9771428571428571,
2286
+ "n_examples": 100,
2287
+ "per_subtask": {
2288
+ "SA": {
2289
+ "accuracy": 0.9877300613496932,
2290
+ "count": 163
2291
+ },
2292
+ "SC": {
2293
+ "accuracy": 0.9923076923076923,
2294
+ "count": 130
2295
+ },
2296
+ "SS": {
2297
+ "accuracy": 0.9655172413793104,
2298
+ "count": 87
2299
+ },
2300
+ "UC": {
2301
+ "accuracy": 0.9507389162561576,
2302
+ "count": 203
2303
+ },
2304
+ "US": {
2305
+ "accuracy": 1.0,
2306
+ "count": 117
2307
+ }
2308
+ }
2309
+ },
2310
+ "add_S3": {
2311
+ "full_accuracy": 0.67,
2312
+ "digit_accuracy": 0.9342857142857143,
2313
+ "n_examples": 100,
2314
+ "per_subtask": {
2315
+ "SA": {
2316
+ "accuracy": 1.0,
2317
+ "count": 121
2318
+ },
2319
+ "SC": {
2320
+ "accuracy": 1.0,
2321
+ "count": 121
2322
+ },
2323
+ "SS": {
2324
+ "accuracy": 1.0,
2325
+ "count": 49
2326
+ },
2327
+ "UC": {
2328
+ "accuracy": 0.8225806451612904,
2329
+ "count": 186
2330
+ },
2331
+ "US": {
2332
+ "accuracy": 0.9417040358744395,
2333
+ "count": 223
2334
+ }
2335
+ }
2336
+ },
2337
+ "add_S4": {
2338
+ "full_accuracy": 0.48,
2339
+ "digit_accuracy": 0.8728571428571429,
2340
+ "n_examples": 100,
2341
+ "per_subtask": {
2342
+ "SA": {
2343
+ "accuracy": 1.0,
2344
+ "count": 104
2345
+ },
2346
+ "SC": {
2347
+ "accuracy": 1.0,
2348
+ "count": 106
2349
+ },
2350
+ "SS": {
2351
+ "accuracy": 1.0,
2352
+ "count": 23
2353
+ },
2354
+ "UC": {
2355
+ "accuracy": 0.71875,
2356
+ "count": 160
2357
+ },
2358
+ "US": {
2359
+ "accuracy": 0.8566775244299675,
2360
+ "count": 307
2361
+ }
2362
+ }
2363
+ },
2364
+ "add_S5": {
2365
+ "full_accuracy": 0.26,
2366
+ "digit_accuracy": 0.6985714285714286,
2367
+ "n_examples": 100,
2368
+ "per_subtask": {
2369
+ "SA": {
2370
+ "accuracy": 1.0,
2371
+ "count": 100
2372
+ },
2373
+ "SC": {
2374
+ "accuracy": 1.0,
2375
+ "count": 100
2376
+ },
2377
+ "UC": {
2378
+ "accuracy": 0.47,
2379
+ "count": 100
2380
+ },
2381
+ "US": {
2382
+ "accuracy": 0.605,
2383
+ "count": 400
2384
+ }
2385
+ }
2386
+ },
2387
+ "add_S6": {
2388
+ "full_accuracy": 0.46,
2389
+ "digit_accuracy": 0.71,
2390
+ "n_examples": 100,
2391
+ "per_subtask": {
2392
+ "SC": {
2393
+ "accuracy": 1.0,
2394
+ "count": 100
2395
+ },
2396
+ "UC": {
2397
+ "accuracy": 0.5,
2398
+ "count": 100
2399
+ },
2400
+ "US": {
2401
+ "accuracy": 0.694,
2402
+ "count": 500
2403
+ }
2404
+ }
2405
+ },
2406
+ "add_random": {
2407
+ "full_accuracy": 0.915,
2408
+ "digit_accuracy": 0.9871428571428571,
2409
+ "n_examples": 200,
2410
+ "per_subtask": {
2411
+ "SA": {
2412
+ "accuracy": 0.9910514541387024,
2413
+ "count": 447
2414
+ },
2415
+ "SC": {
2416
+ "accuracy": 0.996875,
2417
+ "count": 320
2418
+ },
2419
+ "SS": {
2420
+ "accuracy": 1.0,
2421
+ "count": 56
2422
+ },
2423
+ "UC": {
2424
+ "accuracy": 0.9773156899810964,
2425
+ "count": 529
2426
+ },
2427
+ "US": {
2428
+ "accuracy": 0.9791666666666666,
2429
+ "count": 48
2430
+ }
2431
+ }
2432
+ },
2433
+ "add_C3": {
2434
+ "full_accuracy": 0.64,
2435
+ "digit_accuracy": 0.9357142857142857,
2436
+ "n_examples": 100,
2437
+ "per_subtask": {
2438
+ "SA": {
2439
+ "accuracy": 0.9966666666666667,
2440
+ "count": 300
2441
+ },
2442
+ "SC": {
2443
+ "accuracy": 1.0,
2444
+ "count": 100
2445
+ },
2446
+ "UC": {
2447
+ "accuracy": 0.844559585492228,
2448
+ "count": 193
2449
+ },
2450
+ "US": {
2451
+ "accuracy": 0.8691588785046729,
2452
+ "count": 107
2453
+ }
2454
+ }
2455
+ },
2456
+ "add_C4": {
2457
+ "full_accuracy": 0.64,
2458
+ "digit_accuracy": 0.9257142857142857,
2459
+ "n_examples": 100,
2460
+ "per_subtask": {
2461
+ "SA": {
2462
+ "accuracy": 1.0,
2463
+ "count": 200
2464
+ },
2465
+ "SC": {
2466
+ "accuracy": 1.0,
2467
+ "count": 100
2468
+ },
2469
+ "UC": {
2470
+ "accuracy": 0.875,
2471
+ "count": 256
2472
+ },
2473
+ "US": {
2474
+ "accuracy": 0.8611111111111112,
2475
+ "count": 144
2476
+ }
2477
+ }
2478
+ },
2479
+ "add_C5": {
2480
+ "full_accuracy": 0.62,
2481
+ "digit_accuracy": 0.9114285714285715,
2482
+ "n_examples": 100,
2483
+ "per_subtask": {
2484
+ "SA": {
2485
+ "accuracy": 1.0,
2486
+ "count": 100
2487
+ },
2488
+ "SC": {
2489
+ "accuracy": 1.0,
2490
+ "count": 100
2491
+ },
2492
+ "UC": {
2493
+ "accuracy": 0.8660130718954249,
2494
+ "count": 306
2495
+ },
2496
+ "US": {
2497
+ "accuracy": 0.8917525773195877,
2498
+ "count": 194
2499
+ }
2500
+ }
2501
+ },
2502
+ "add_C6": {
2503
+ "full_accuracy": 0.7,
2504
+ "digit_accuracy": 0.9428571428571428,
2505
+ "n_examples": 100,
2506
+ "per_subtask": {
2507
+ "SC": {
2508
+ "accuracy": 1.0,
2509
+ "count": 100
2510
+ },
2511
+ "UC": {
2512
+ "accuracy": 0.9180327868852459,
2513
+ "count": 366
2514
+ },
2515
+ "US": {
2516
+ "accuracy": 0.9572649572649573,
2517
+ "count": 234
2518
+ }
2519
+ }
2520
+ },
2521
+ "sub_M0": {
2522
+ "full_accuracy": 0.94,
2523
+ "digit_accuracy": 0.9914285714285714,
2524
+ "n_examples": 100,
2525
+ "per_subtask": {
2526
+ "MD": {
2527
+ "accuracy": 0.9900166389351082,
2528
+ "count": 601
2529
+ },
2530
+ "ME": {
2531
+ "accuracy": 1.0,
2532
+ "count": 99
2533
+ }
2534
+ }
2535
+ },
2536
+ "sub_M1": {
2537
+ "full_accuracy": 0.92,
2538
+ "digit_accuracy": 0.9885714285714285,
2539
+ "n_examples": 100,
2540
+ "per_subtask": {
2541
+ "MD": {
2542
+ "accuracy": 0.982078853046595,
2543
+ "count": 279
2544
+ },
2545
+ "MB": {
2546
+ "accuracy": 0.993103448275862,
2547
+ "count": 145
2548
+ },
2549
+ "ME": {
2550
+ "accuracy": 1.0,
2551
+ "count": 24
2552
+ },
2553
+ "UB": {
2554
+ "accuracy": 0.9920634920634921,
2555
+ "count": 252
2556
+ }
2557
+ }
2558
+ },
2559
+ "sub_M2": {
2560
+ "full_accuracy": 0.67,
2561
+ "digit_accuracy": 0.9514285714285714,
2562
+ "n_examples": 100,
2563
+ "per_subtask": {
2564
+ "MD": {
2565
+ "accuracy": 0.9906103286384976,
2566
+ "count": 213
2567
+ },
2568
+ "MB": {
2569
+ "accuracy": 0.9911504424778761,
2570
+ "count": 113
2571
+ },
2572
+ "ME": {
2573
+ "accuracy": 1.0,
2574
+ "count": 85
2575
+ },
2576
+ "UB": {
2577
+ "accuracy": 0.8287292817679558,
2578
+ "count": 181
2579
+ },
2580
+ "UD": {
2581
+ "accuracy": 1.0,
2582
+ "count": 108
2583
+ }
2584
+ }
2585
+ },
2586
+ "sub_M3": {
2587
+ "full_accuracy": 0.26,
2588
+ "digit_accuracy": 0.8557142857142858,
2589
+ "n_examples": 100,
2590
+ "per_subtask": {
2591
+ "MD": {
2592
+ "accuracy": 1.0,
2593
+ "count": 179
2594
+ },
2595
+ "MB": {
2596
+ "accuracy": 0.9805825242718447,
2597
+ "count": 103
2598
+ },
2599
+ "ME": {
2600
+ "accuracy": 1.0,
2601
+ "count": 56
2602
+ },
2603
+ "UB": {
2604
+ "accuracy": 0.5704697986577181,
2605
+ "count": 149
2606
+ },
2607
+ "UD": {
2608
+ "accuracy": 0.8356807511737089,
2609
+ "count": 213
2610
+ }
2611
+ }
2612
+ },
2613
+ "sub_M4": {
2614
+ "full_accuracy": 0.06,
2615
+ "digit_accuracy": 0.7242857142857143,
2616
+ "n_examples": 100,
2617
+ "per_subtask": {
2618
+ "MD": {
2619
+ "accuracy": 1.0,
2620
+ "count": 200
2621
+ },
2622
+ "MB": {
2623
+ "accuracy": 1.0,
2624
+ "count": 100
2625
+ },
2626
+ "UB": {
2627
+ "accuracy": 0.31,
2628
+ "count": 100
2629
+ },
2630
+ "UD": {
2631
+ "accuracy": 0.5866666666666667,
2632
+ "count": 300
2633
+ }
2634
+ }
2635
+ },
2636
+ "sub_M5": {
2637
+ "full_accuracy": 0.01,
2638
+ "digit_accuracy": 0.5328571428571428,
2639
+ "n_examples": 100,
2640
+ "per_subtask": {
2641
+ "MD": {
2642
+ "accuracy": 1.0,
2643
+ "count": 100
2644
+ },
2645
+ "MB": {
2646
+ "accuracy": 1.0,
2647
+ "count": 100
2648
+ },
2649
+ "UB": {
2650
+ "accuracy": 0.2,
2651
+ "count": 100
2652
+ },
2653
+ "UD": {
2654
+ "accuracy": 0.3825,
2655
+ "count": 400
2656
+ }
2657
+ }
2658
+ },
2659
+ "sub_random": {
2660
+ "full_accuracy": 0.905,
2661
+ "digit_accuracy": 0.9857142857142858,
2662
+ "n_examples": 200,
2663
+ "per_subtask": {
2664
+ "MD": {
2665
+ "accuracy": 0.9983333333333333,
2666
+ "count": 600
2667
+ },
2668
+ "MB": {
2669
+ "accuracy": 0.9925093632958801,
2670
+ "count": 267
2671
+ },
2672
+ "ME": {
2673
+ "accuracy": 1.0,
2674
+ "count": 53
2675
+ },
2676
+ "UB": {
2677
+ "accuracy": 0.9635535307517085,
2678
+ "count": 439
2679
+ },
2680
+ "UD": {
2681
+ "accuracy": 0.975609756097561,
2682
+ "count": 41
2683
+ }
2684
+ }
2685
+ },
2686
+ "sub_B3": {
2687
+ "full_accuracy": 0.7,
2688
+ "digit_accuracy": 0.9457142857142857,
2689
+ "n_examples": 100,
2690
+ "per_subtask": {
2691
+ "MD": {
2692
+ "accuracy": 1.0,
2693
+ "count": 300
2694
+ },
2695
+ "MB": {
2696
+ "accuracy": 1.0,
2697
+ "count": 100
2698
+ },
2699
+ "UB": {
2700
+ "accuracy": 0.8629441624365483,
2701
+ "count": 197
2702
+ },
2703
+ "UD": {
2704
+ "accuracy": 0.8932038834951457,
2705
+ "count": 103
2706
+ }
2707
+ }
2708
+ },
2709
+ "sub_B4": {
2710
+ "full_accuracy": 0.54,
2711
+ "digit_accuracy": 0.9057142857142857,
2712
+ "n_examples": 100,
2713
+ "per_subtask": {
2714
+ "MD": {
2715
+ "accuracy": 1.0,
2716
+ "count": 200
2717
+ },
2718
+ "MB": {
2719
+ "accuracy": 0.99,
2720
+ "count": 100
2721
+ },
2722
+ "UB": {
2723
+ "accuracy": 0.8380566801619433,
2724
+ "count": 247
2725
+ },
2726
+ "UD": {
2727
+ "accuracy": 0.8366013071895425,
2728
+ "count": 153
2729
+ }
2730
+ }
2731
+ },
2732
+ "sub_B5": {
2733
+ "full_accuracy": 0.43,
2734
+ "digit_accuracy": 0.8685714285714285,
2735
+ "n_examples": 100,
2736
+ "per_subtask": {
2737
+ "MD": {
2738
+ "accuracy": 1.0,
2739
+ "count": 100
2740
+ },
2741
+ "MB": {
2742
+ "accuracy": 1.0,
2743
+ "count": 100
2744
+ },
2745
+ "UB": {
2746
+ "accuracy": 0.8120805369127517,
2747
+ "count": 298
2748
+ },
2749
+ "UD": {
2750
+ "accuracy": 0.8217821782178217,
2751
+ "count": 202
2752
+ }
2753
+ }
2754
+ }
2755
+ },
2756
+ "summary": {
2757
+ "overall_accuracy": 0.6429166666666667,
2758
+ "digit_accuracy": 0.9002380952380953,
2759
+ "total_examples": 2400,
2760
+ "n_splits": 22
2761
+ }
2762
+ },
2763
+ "sorl_overall_accuracy": 0.6429166666666667,
2764
+ "sft_overall_accuracy": 0.0
2765
+ }
add_sub_sorl_v6_abs30_K1_25K_1L3H510d/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b781926f5d9cb4a25f1f3f83e155540aeb8286873b1ee8dde574234f9d29ca3d
3
+ size 634760676
add_sub_sorl_v6_abs30_K1_25K_1L3H510d/train_config.json ADDED
@@ -0,0 +1,84 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "num_rollouts": 4,
3
+ "K": 1,
4
+ "max_iterations": 2,
5
+ "memory_span_abs": 1792,
6
+ "memory_span_traj": 1792,
7
+ "temperature": 1.0,
8
+ "ar_search": false,
9
+ "response_only_abs": false,
10
+ "alpha_info_gain": 10.0,
11
+ "alpha_abs": 0.1,
12
+ "alpha_soft_zipf": 1.0,
13
+ "alpha_ortho": 0.0,
14
+ "alpha_anchor": 0.0,
15
+ "alpha_jacobi": 0.0,
16
+ "decay": 0.8,
17
+ "target_vocab_util": 0.8,
18
+ "min_abs_ppl": 0.0,
19
+ "zipf_alpha": 1.0,
20
+ "lr": 8e-05,
21
+ "emb_lr_mult": 1.0,
22
+ "weight_decay": 0.01,
23
+ "warmup_steps": 234,
24
+ "cooldown_frac": 0.4,
25
+ "max_grad_norm": 1.0,
26
+ "vq_abs_pretrain_steps": 0,
27
+ "vq_abs_pretrain_lr": 0.001,
28
+ "vq_abs_pretrain_layer": -1,
29
+ "vq_abs_pretrain_batch_size": 256,
30
+ "vq_abs_pretrain_target_vectors": 20000,
31
+ "batch_size": 64,
32
+ "gradient_accumulation_steps": 1,
33
+ "num_epochs": 20,
34
+ "emb_warmup_steps": 0,
35
+ "log_every": 50,
36
+ "eval_every": 390,
37
+ "save_every": 999999,
38
+ "eval_samples": 100,
39
+ "output_dir": "ckpt/sweep/as_sorl_v6_abs30_K1_25K_1L3H510d",
40
+ "eval_K": 4,
41
+ "alpha_traj": 0.0,
42
+ "corrupt_method": "shuffle",
43
+ "corrupt_ratio": 0.3,
44
+ "alpha_contrastive": 1.0,
45
+ "gamma_contrastive": 0.5,
46
+ "alpha_masked_traj": 0.0,
47
+ "mask_nl_ratio": 0.3,
48
+ "mask_nl_mode": "fixed",
49
+ "mask_nl_fixed_id": 0,
50
+ "use_ste": true,
51
+ "n_inner": 1,
52
+ "random_K": null,
53
+ "strip_suffix": null,
54
+ "compress_prefix": null,
55
+ "random_mem_span": null,
56
+ "warmup_ratio": 0.03,
57
+ "beta2": 0.999,
58
+ "seed": 42,
59
+ "n_digits": 6,
60
+ "n_layer": 1,
61
+ "n_head": 3,
62
+ "n_embd": 510,
63
+ "ops": "add_sub",
64
+ "abs_vocab": 30,
65
+ "dataset_size": 25000,
66
+ "mode": "sorl_v6",
67
+ "device": "cuda",
68
+ "push_to_hub": true,
69
+ "no_wandb": false,
70
+ "n_params": 158613826,
71
+ "run_name": "add_sub_sorl_v6_abs30_K1_25K_1L3H510d",
72
+ "git_commit": "ec82dee57b1073e52f06ffb0efedc7bce16fff21",
73
+ "timestamp": "2026-04-14T10:48:57.465108+00:00",
74
+ "tokenizer": "Qwen/Qwen3-0.6B",
75
+ "dataset_repo": "thoughtworks/arithmetic-sorl-data",
76
+ "dataset_config": "add_sub_6digit",
77
+ "model_repo": "thoughtworks/arithmetic-sorl",
78
+ "trainer_version": "v6",
79
+ "wandb_run_id": "tlisb0zp",
80
+ "wandb_url": "https://wandb.ai/nlp_and_interpretability/sorl-arithmetic/runs/tlisb0zp",
81
+ "final_accuracy": 0.6429166666666667,
82
+ "sft_accuracy": 0.0,
83
+ "eval_method": "ArithmeticEvaluator"
84
+ }