md896 commited on
Commit
4724001
·
verified ·
1 Parent(s): d2042c8

Upload artifacts/runs/20260426-064318-sample-rewards-32eval/sample_rewards_final.json with huggingface_hub

Browse files
artifacts/runs/20260426-064318-sample-rewards-32eval/sample_rewards_final.json ADDED
@@ -0,0 +1,268 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "base_model": "Qwen/Qwen2.5-0.5B-Instruct",
3
+ "winner_model": "md896/sql-debug-agent-qwen25-05b-grpo-wandb-continue-v2",
4
+ "samples_per_task": 32,
5
+ "eval_best_of_n": 2,
6
+ "base_sample_rewards": [
7
+ 0.1306,
8
+ 0.1306,
9
+ 0.1306,
10
+ 0.1006,
11
+ 0.1006,
12
+ 0.1006,
13
+ 0.1306,
14
+ 0.1006,
15
+ 0.1306,
16
+ 0.1306,
17
+ 0.1006,
18
+ 0.1006,
19
+ 0.1306,
20
+ 0.1306,
21
+ 0.1006,
22
+ 0.1306,
23
+ 0.1306,
24
+ 0.1006,
25
+ 0.1306,
26
+ 0.1006,
27
+ 0.1006,
28
+ 0.1306,
29
+ 0.1306,
30
+ 0.1006,
31
+ 0.1006,
32
+ 0.1006,
33
+ 0.1006,
34
+ 0.1306,
35
+ 0.1006,
36
+ 0.1306,
37
+ 0.1306,
38
+ 0.1006,
39
+ 0.1006,
40
+ 0.1006,
41
+ 0.1006,
42
+ 0.1006,
43
+ 0.1006,
44
+ 0.1006,
45
+ 0.1006,
46
+ 0.1006,
47
+ 0.1006,
48
+ 0.1006,
49
+ 0.1006,
50
+ 0.1006,
51
+ 0.1006,
52
+ 0.1006,
53
+ 0.1006,
54
+ 0.1106,
55
+ 0.1006,
56
+ 0.1006,
57
+ 0.1006,
58
+ 0.1006,
59
+ 0.1006,
60
+ 0.1006,
61
+ 0.1006,
62
+ 0.1006,
63
+ 0.1006,
64
+ 0.1006,
65
+ 0.1306,
66
+ 0.1006,
67
+ 0.1006,
68
+ 0.1006,
69
+ 0.1306,
70
+ 0.1006,
71
+ 0.1006,
72
+ 0.1006,
73
+ 0.1006,
74
+ 0.1006,
75
+ 0.1006,
76
+ 0.1006,
77
+ 0.1006,
78
+ 0.1006,
79
+ 0.1006,
80
+ 0.1006,
81
+ 0.1006,
82
+ 0.1006,
83
+ 0.1006,
84
+ 0.1006,
85
+ 0.1006,
86
+ 0.1006,
87
+ 0.1006,
88
+ 0.1006,
89
+ 0.1006,
90
+ 0.1006,
91
+ 0.1006,
92
+ 0.1006,
93
+ 0.1006,
94
+ 0.1006,
95
+ 0.1006,
96
+ 0.1006,
97
+ 0.1006,
98
+ 0.1006,
99
+ 0.1006,
100
+ 0.1006,
101
+ 0.1006,
102
+ 0.1006,
103
+ 0.1,
104
+ 0.1,
105
+ 0.13,
106
+ 0.13,
107
+ 0.1,
108
+ 0.1,
109
+ 0.1,
110
+ 0.1,
111
+ 0.1,
112
+ 0.1,
113
+ 0.1,
114
+ 0.1,
115
+ 0.1,
116
+ 0.1,
117
+ 0.1,
118
+ 0.1,
119
+ 0.1,
120
+ 0.1,
121
+ 0.13,
122
+ 0.13,
123
+ 0.1,
124
+ 0.1,
125
+ 0.1,
126
+ 0.1,
127
+ 0.13,
128
+ 0.1,
129
+ 0.1,
130
+ 0.1,
131
+ 0.13,
132
+ 0.1,
133
+ 0.13,
134
+ 0.1
135
+ ],
136
+ "winner_sample_rewards": [
137
+ 0.1306,
138
+ 0.1306,
139
+ 0.1306,
140
+ 0.1306,
141
+ 0.1306,
142
+ 0.1306,
143
+ 0.1306,
144
+ 0.1306,
145
+ 0.1306,
146
+ 0.1006,
147
+ 0.1306,
148
+ 0.1306,
149
+ 0.1306,
150
+ 0.1306,
151
+ 0.1306,
152
+ 0.1006,
153
+ 0.1306,
154
+ 0.1306,
155
+ 0.1306,
156
+ 0.1306,
157
+ 0.1306,
158
+ 0.1306,
159
+ 0.1306,
160
+ 0.1006,
161
+ 0.1306,
162
+ 0.1306,
163
+ 0.1306,
164
+ 0.1006,
165
+ 0.1306,
166
+ 0.1306,
167
+ 0.1306,
168
+ 0.1306,
169
+ 0.1006,
170
+ 0.1306,
171
+ 0.2006,
172
+ 0.2006,
173
+ 0.1006,
174
+ 0.1006,
175
+ 0.1006,
176
+ 0.1006,
177
+ 0.1006,
178
+ 0.1006,
179
+ 0.1006,
180
+ 0.1006,
181
+ 0.2006,
182
+ 0.1006,
183
+ 0.2006,
184
+ 0.2006,
185
+ 0.1006,
186
+ 0.1006,
187
+ 0.1006,
188
+ 0.1006,
189
+ 0.1006,
190
+ 0.1006,
191
+ 0.1006,
192
+ 0.1006,
193
+ 0.2006,
194
+ 0.1006,
195
+ 0.1006,
196
+ 0.1306,
197
+ 0.1006,
198
+ 0.1006,
199
+ 0.1006,
200
+ 0.2006,
201
+ 0.1006,
202
+ 0.1006,
203
+ 0.1006,
204
+ 0.1006,
205
+ 0.1006,
206
+ 0.1006,
207
+ 0.1006,
208
+ 0.1006,
209
+ 0.1006,
210
+ 0.1006,
211
+ 0.1006,
212
+ 0.1006,
213
+ 0.1006,
214
+ 0.1006,
215
+ 0.1006,
216
+ 0.1006,
217
+ 0.1006,
218
+ 0.1006,
219
+ 0.1006,
220
+ 0.1006,
221
+ 0.1006,
222
+ 0.1306,
223
+ 0.1006,
224
+ 0.1006,
225
+ 0.1006,
226
+ 0.1006,
227
+ 0.1006,
228
+ 0.1006,
229
+ 0.1006,
230
+ 0.1006,
231
+ 0.1006,
232
+ 0.1006,
233
+ 0.13,
234
+ 0.1,
235
+ 0.1,
236
+ 0.0767,
237
+ 0.13,
238
+ 0.13,
239
+ 0.1,
240
+ 0.1,
241
+ 0.13,
242
+ 0.0967,
243
+ 0.1,
244
+ 0.13,
245
+ 0.1,
246
+ 0.13,
247
+ 0.13,
248
+ 0.1,
249
+ 0.1,
250
+ 0.13,
251
+ 0.1,
252
+ 0.5,
253
+ 0.13,
254
+ 0.13,
255
+ 0.13,
256
+ 0.13,
257
+ 0.13,
258
+ 0.13,
259
+ 0.13,
260
+ 0.62,
261
+ 0.13,
262
+ 0.1,
263
+ 0.13,
264
+ 0.1
265
+ ],
266
+ "base_mean": 0.10638749999999998,
267
+ "winner_mean": 0.12414843750000006
268
+ }