system HF staff commited on
Commit
a51b180
1 Parent(s): 92754f2

Update log_history.json

Browse files
Files changed (1) hide show
  1. log_history.json +1542 -0
log_history.json ADDED
@@ -0,0 +1,1542 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "loss": 8.221125,
4
+ "learning_rate": 4.977302440441604e-05,
5
+ "epoch": 0.004539511911679256,
6
+ "total_flos": 1534078999360512,
7
+ "step": 500
8
+ },
9
+ {
10
+ "loss": 7.613228515625,
11
+ "learning_rate": 4.9546048808832074e-05,
12
+ "epoch": 0.009079023823358512,
13
+ "total_flos": 3066979584402432,
14
+ "step": 1000
15
+ },
16
+ {
17
+ "loss": 7.3869140625,
18
+ "learning_rate": 4.931907321324811e-05,
19
+ "epoch": 0.01361853573503777,
20
+ "total_flos": 4595094364354560,
21
+ "step": 1500
22
+ },
23
+ {
24
+ "loss": 7.200509765625,
25
+ "learning_rate": 4.909209761766415e-05,
26
+ "epoch": 0.018158047646717024,
27
+ "total_flos": 6127634210319360,
28
+ "step": 2000
29
+ },
30
+ {
31
+ "loss": 7.10742578125,
32
+ "learning_rate": 4.886512202208019e-05,
33
+ "epoch": 0.02269755955839628,
34
+ "total_flos": 7662338490746880,
35
+ "step": 2500
36
+ },
37
+ {
38
+ "loss": 6.98366796875,
39
+ "learning_rate": 4.8638146426496224e-05,
40
+ "epoch": 0.02723707147007554,
41
+ "total_flos": 9193050592054272,
42
+ "step": 3000
43
+ },
44
+ {
45
+ "loss": 6.89792578125,
46
+ "learning_rate": 4.841117083091226e-05,
47
+ "epoch": 0.03177658338175479,
48
+ "total_flos": 10724748713505792,
49
+ "step": 3500
50
+ },
51
+ {
52
+ "loss": 6.84346875,
53
+ "learning_rate": 4.81841952353283e-05,
54
+ "epoch": 0.03631609529343405,
55
+ "total_flos": 12256855672578048,
56
+ "step": 4000
57
+ },
58
+ {
59
+ "loss": 6.70800390625,
60
+ "learning_rate": 4.795721963974434e-05,
61
+ "epoch": 0.0408556072051133,
62
+ "total_flos": 13787471576798208,
63
+ "step": 4500
64
+ },
65
+ {
66
+ "loss": 6.61594140625,
67
+ "learning_rate": 4.7730244044160374e-05,
68
+ "epoch": 0.04539511911679256,
69
+ "total_flos": 15318303924464640,
70
+ "step": 5000
71
+ },
72
+ {
73
+ "loss": 6.4896953125,
74
+ "learning_rate": 4.750326844857641e-05,
75
+ "epoch": 0.049934631028471815,
76
+ "total_flos": 16850747573342208,
77
+ "step": 5500
78
+ },
79
+ {
80
+ "loss": 6.3819609375,
81
+ "learning_rate": 4.7276292852992446e-05,
82
+ "epoch": 0.05447414294015108,
83
+ "total_flos": 18381291329746944,
84
+ "step": 6000
85
+ },
86
+ {
87
+ "loss": 6.242921875,
88
+ "learning_rate": 4.7049317257408485e-05,
89
+ "epoch": 0.059013654851830334,
90
+ "total_flos": 19910728819648512,
91
+ "step": 6500
92
+ },
93
+ {
94
+ "loss": 6.1153828125,
95
+ "learning_rate": 4.682234166182452e-05,
96
+ "epoch": 0.06355316676350958,
97
+ "total_flos": 21443990143767552,
98
+ "step": 7000
99
+ },
100
+ {
101
+ "loss": 6.03621875,
102
+ "learning_rate": 4.6595366066240556e-05,
103
+ "epoch": 0.06809267867518884,
104
+ "total_flos": 22974990836336640,
105
+ "step": 7500
106
+ },
107
+ {
108
+ "loss": 5.920453125,
109
+ "learning_rate": 4.6368390470656596e-05,
110
+ "epoch": 0.0726321905868681,
111
+ "total_flos": 24509574870405120,
112
+ "step": 8000
113
+ },
114
+ {
115
+ "loss": 5.7900625,
116
+ "learning_rate": 4.6141414875072635e-05,
117
+ "epoch": 0.07717170249854735,
118
+ "total_flos": 26041994470010880,
119
+ "step": 8500
120
+ },
121
+ {
122
+ "loss": 5.6957890625,
123
+ "learning_rate": 4.591443927948867e-05,
124
+ "epoch": 0.0817112144102266,
125
+ "total_flos": 27574606463791104,
126
+ "step": 9000
127
+ },
128
+ {
129
+ "loss": 5.611875,
130
+ "learning_rate": 4.5687463683904706e-05,
131
+ "epoch": 0.08625072632190586,
132
+ "total_flos": 29103514869712896,
133
+ "step": 9500
134
+ },
135
+ {
136
+ "loss": 5.5246484375,
137
+ "learning_rate": 4.5460488088320745e-05,
138
+ "epoch": 0.09079023823358512,
139
+ "total_flos": 30636247109852160,
140
+ "step": 10000
141
+ },
142
+ {
143
+ "loss": 5.417921875,
144
+ "learning_rate": 4.5233512492736785e-05,
145
+ "epoch": 0.09532975014526437,
146
+ "total_flos": 32167800935672832,
147
+ "step": 10500
148
+ },
149
+ {
150
+ "loss": 5.356875,
151
+ "learning_rate": 4.500653689715282e-05,
152
+ "epoch": 0.09986926205694363,
153
+ "total_flos": 33702120427751424,
154
+ "step": 11000
155
+ },
156
+ {
157
+ "loss": 5.248140625,
158
+ "learning_rate": 4.4779561301568856e-05,
159
+ "epoch": 0.1044087739686229,
160
+ "total_flos": 35233578056484864,
161
+ "step": 11500
162
+ },
163
+ {
164
+ "loss": 5.219984375,
165
+ "learning_rate": 4.4552585705984895e-05,
166
+ "epoch": 0.10894828588030216,
167
+ "total_flos": 36765228079392768,
168
+ "step": 12000
169
+ },
170
+ {
171
+ "loss": 5.129609375,
172
+ "learning_rate": 4.4325610110400935e-05,
173
+ "epoch": 0.11348779779198141,
174
+ "total_flos": 38297816023901184,
175
+ "step": 12500
176
+ },
177
+ {
178
+ "loss": 5.08884375,
179
+ "learning_rate": 4.409863451481697e-05,
180
+ "epoch": 0.11802730970366067,
181
+ "total_flos": 39827782597782528,
182
+ "step": 13000
183
+ },
184
+ {
185
+ "loss": 5.06709375,
186
+ "learning_rate": 4.3871658919233006e-05,
187
+ "epoch": 0.12256682161533992,
188
+ "total_flos": 41360995823357952,
189
+ "step": 13500
190
+ },
191
+ {
192
+ "loss": 4.992921875,
193
+ "learning_rate": 4.3644683323649045e-05,
194
+ "epoch": 0.12710633352701917,
195
+ "total_flos": 42891299087044608,
196
+ "step": 14000
197
+ },
198
+ {
199
+ "loss": 4.955390625,
200
+ "learning_rate": 4.3417707728065085e-05,
201
+ "epoch": 0.13164584543869842,
202
+ "total_flos": 44422756715778048,
203
+ "step": 14500
204
+ },
205
+ {
206
+ "loss": 4.915578125,
207
+ "learning_rate": 4.319073213248112e-05,
208
+ "epoch": 0.13618535735037768,
209
+ "total_flos": 45955392758830080,
210
+ "step": 15000
211
+ },
212
+ {
213
+ "loss": 4.83159375,
214
+ "learning_rate": 4.2963756536897156e-05,
215
+ "epoch": 0.14072486926205693,
216
+ "total_flos": 47487668062804992,
217
+ "step": 15500
218
+ },
219
+ {
220
+ "loss": 4.842171875,
221
+ "learning_rate": 4.2736780941313195e-05,
222
+ "epoch": 0.1452643811737362,
223
+ "total_flos": 49018356114840576,
224
+ "step": 16000
225
+ },
226
+ {
227
+ "loss": 4.789875,
228
+ "learning_rate": 4.250980534572923e-05,
229
+ "epoch": 0.14980389308541545,
230
+ "total_flos": 50547168323675136,
231
+ "step": 16500
232
+ },
233
+ {
234
+ "loss": 4.773703125,
235
+ "learning_rate": 4.228282975014527e-05,
236
+ "epoch": 0.1543434049970947,
237
+ "total_flos": 52076846306294784,
238
+ "step": 17000
239
+ },
240
+ {
241
+ "loss": 4.713765625,
242
+ "learning_rate": 4.20558541545613e-05,
243
+ "epoch": 0.15888291690877396,
244
+ "total_flos": 53608448230659072,
245
+ "step": 17500
246
+ },
247
+ {
248
+ "loss": 4.704203125,
249
+ "learning_rate": 4.182887855897734e-05,
250
+ "epoch": 0.1634224288204532,
251
+ "total_flos": 55139160331966464,
252
+ "step": 18000
253
+ },
254
+ {
255
+ "loss": 4.666015625,
256
+ "learning_rate": 4.160190296339338e-05,
257
+ "epoch": 0.16796194073213247,
258
+ "total_flos": 56672445705357312,
259
+ "step": 18500
260
+ },
261
+ {
262
+ "loss": 4.6343125,
263
+ "learning_rate": 4.137492736780941e-05,
264
+ "epoch": 0.17250145264381173,
265
+ "total_flos": 58205875374379008,
266
+ "step": 19000
267
+ },
268
+ {
269
+ "loss": 4.595625,
270
+ "learning_rate": 4.114795177222545e-05,
271
+ "epoch": 0.17704096455549098,
272
+ "total_flos": 59740627753350144,
273
+ "step": 19500
274
+ },
275
+ {
276
+ "loss": 4.544984375,
277
+ "learning_rate": 4.092097617664149e-05,
278
+ "epoch": 0.18158047646717024,
279
+ "total_flos": 61268598237671424,
280
+ "step": 20000
281
+ },
282
+ {
283
+ "loss": 4.53390625,
284
+ "learning_rate": 4.069400058105753e-05,
285
+ "epoch": 0.1861199883788495,
286
+ "total_flos": 62799502733153280,
287
+ "step": 20500
288
+ },
289
+ {
290
+ "loss": 4.511140625,
291
+ "learning_rate": 4.046702498547356e-05,
292
+ "epoch": 0.19065950029052875,
293
+ "total_flos": 64333870323775488,
294
+ "step": 21000
295
+ },
296
+ {
297
+ "loss": 4.49559375,
298
+ "learning_rate": 4.02400493898896e-05,
299
+ "epoch": 0.195199012202208,
300
+ "total_flos": 65865183656878080,
301
+ "step": 21500
302
+ },
303
+ {
304
+ "loss": 4.464828125,
305
+ "learning_rate": 4.001307379430564e-05,
306
+ "epoch": 0.19973852411388726,
307
+ "total_flos": 67398517128812544,
308
+ "step": 22000
309
+ },
310
+ {
311
+ "loss": 4.4189375,
312
+ "learning_rate": 3.978609819872168e-05,
313
+ "epoch": 0.20427803602556652,
314
+ "total_flos": 68930359545894912,
315
+ "step": 22500
316
+ },
317
+ {
318
+ "loss": 4.41446875,
319
+ "learning_rate": 3.955912260313771e-05,
320
+ "epoch": 0.2088175479372458,
321
+ "total_flos": 70460855203756032,
322
+ "step": 23000
323
+ },
324
+ {
325
+ "loss": 4.362109375,
326
+ "learning_rate": 3.933214700755375e-05,
327
+ "epoch": 0.21335705984892506,
328
+ "total_flos": 71991879945596928,
329
+ "step": 23500
330
+ },
331
+ {
332
+ "loss": 4.349375,
333
+ "learning_rate": 3.910517141196979e-05,
334
+ "epoch": 0.2178965717606043,
335
+ "total_flos": 73525550107336704,
336
+ "step": 24000
337
+ },
338
+ {
339
+ "loss": 4.3429375,
340
+ "learning_rate": 3.887819581638583e-05,
341
+ "epoch": 0.22243608367228357,
342
+ "total_flos": 75056911538982912,
343
+ "step": 24500
344
+ },
345
+ {
346
+ "loss": 4.29459375,
347
+ "learning_rate": 3.865122022080186e-05,
348
+ "epoch": 0.22697559558396282,
349
+ "total_flos": 76589595680578560,
350
+ "step": 25000
351
+ },
352
+ {
353
+ "loss": 4.31003125,
354
+ "learning_rate": 3.84242446252179e-05,
355
+ "epoch": 0.23151510749564208,
356
+ "total_flos": 78121606442563584,
357
+ "step": 25500
358
+ },
359
+ {
360
+ "loss": 4.278125,
361
+ "learning_rate": 3.819726902963394e-05,
362
+ "epoch": 0.23605461940732134,
363
+ "total_flos": 79651645164260352,
364
+ "step": 26000
365
+ },
366
+ {
367
+ "loss": 4.2620625,
368
+ "learning_rate": 3.797029343404998e-05,
369
+ "epoch": 0.2405941313190006,
370
+ "total_flos": 81182621807557632,
371
+ "step": 26500
372
+ },
373
+ {
374
+ "loss": 4.2123125,
375
+ "learning_rate": 3.774331783846601e-05,
376
+ "epoch": 0.24513364323067985,
377
+ "total_flos": 82714921160804352,
378
+ "step": 27000
379
+ },
380
+ {
381
+ "loss": 4.2054375,
382
+ "learning_rate": 3.751634224288205e-05,
383
+ "epoch": 0.2496731551423591,
384
+ "total_flos": 84246883824245760,
385
+ "step": 27500
386
+ },
387
+ {
388
+ "loss": 4.176625,
389
+ "learning_rate": 3.728936664729809e-05,
390
+ "epoch": 0.25421266705403833,
391
+ "total_flos": 85777163038660608,
392
+ "step": 28000
393
+ },
394
+ {
395
+ "loss": 4.17928125,
396
+ "learning_rate": 3.706239105171412e-05,
397
+ "epoch": 0.2587521789657176,
398
+ "total_flos": 87308476371763200,
399
+ "step": 28500
400
+ },
401
+ {
402
+ "loss": 4.144,
403
+ "learning_rate": 3.683541545613016e-05,
404
+ "epoch": 0.26329169087739684,
405
+ "total_flos": 88841857942241280,
406
+ "step": 29000
407
+ },
408
+ {
409
+ "loss": 4.12915625,
410
+ "learning_rate": 3.660843986054619e-05,
411
+ "epoch": 0.26783120278907613,
412
+ "total_flos": 90372185255199744,
413
+ "step": 29500
414
+ },
415
+ {
416
+ "loss": 4.1188125,
417
+ "learning_rate": 3.638146426496223e-05,
418
+ "epoch": 0.27237071470075536,
419
+ "total_flos": 91901069611849728,
420
+ "step": 30000
421
+ },
422
+ {
423
+ "loss": 4.1068125,
424
+ "learning_rate": 3.615448866937827e-05,
425
+ "epoch": 0.27691022661243464,
426
+ "total_flos": 93430819742284800,
427
+ "step": 30500
428
+ },
429
+ {
430
+ "loss": 4.08590625,
431
+ "learning_rate": 3.59275130737943e-05,
432
+ "epoch": 0.28144973852411387,
433
+ "total_flos": 94959535754032128,
434
+ "step": 31000
435
+ },
436
+ {
437
+ "loss": 4.0940625,
438
+ "learning_rate": 3.570053747821034e-05,
439
+ "epoch": 0.28598925043579315,
440
+ "total_flos": 96491859156550656,
441
+ "step": 31500
442
+ },
443
+ {
444
+ "loss": 4.04140625,
445
+ "learning_rate": 3.547356188262638e-05,
446
+ "epoch": 0.2905287623474724,
447
+ "total_flos": 98024879987951616,
448
+ "step": 32000
449
+ },
450
+ {
451
+ "loss": 4.045,
452
+ "learning_rate": 3.524658628704242e-05,
453
+ "epoch": 0.29506827425915166,
454
+ "total_flos": 99554076985135104,
455
+ "step": 32500
456
+ },
457
+ {
458
+ "loss": 4.0135,
459
+ "learning_rate": 3.501961069145845e-05,
460
+ "epoch": 0.2996077861708309,
461
+ "total_flos": 101083803066298368,
462
+ "step": 33000
463
+ },
464
+ {
465
+ "loss": 4.00115625,
466
+ "learning_rate": 3.479263509587449e-05,
467
+ "epoch": 0.3041472980825102,
468
+ "total_flos": 102618507346725888,
469
+ "step": 33500
470
+ },
471
+ {
472
+ "loss": 3.9580625,
473
+ "learning_rate": 3.456565950029053e-05,
474
+ "epoch": 0.3086868099941894,
475
+ "total_flos": 104149532088566784,
476
+ "step": 34000
477
+ },
478
+ {
479
+ "loss": 3.9779375,
480
+ "learning_rate": 3.433868390470657e-05,
481
+ "epoch": 0.3132263219058687,
482
+ "total_flos": 105683202250306560,
483
+ "step": 34500
484
+ },
485
+ {
486
+ "loss": 3.9616875,
487
+ "learning_rate": 3.41117083091226e-05,
488
+ "epoch": 0.3177658338175479,
489
+ "total_flos": 107214082696516608,
490
+ "step": 35000
491
+ },
492
+ {
493
+ "loss": 3.93290625,
494
+ "learning_rate": 3.388473271353864e-05,
495
+ "epoch": 0.3223053457292272,
496
+ "total_flos": 108744746699280384,
497
+ "step": 35500
498
+ },
499
+ {
500
+ "loss": 3.93778125,
501
+ "learning_rate": 3.365775711795468e-05,
502
+ "epoch": 0.3268448576409064,
503
+ "total_flos": 110276949855439872,
504
+ "step": 36000
505
+ },
506
+ {
507
+ "loss": 3.9205625,
508
+ "learning_rate": 3.343078152237072e-05,
509
+ "epoch": 0.3313843695525857,
510
+ "total_flos": 111804607699227648,
511
+ "step": 36500
512
+ },
513
+ {
514
+ "loss": 3.88321875,
515
+ "learning_rate": 3.320380592678675e-05,
516
+ "epoch": 0.33592388146426494,
517
+ "total_flos": 113335848884514816,
518
+ "step": 37000
519
+ },
520
+ {
521
+ "loss": 3.888125,
522
+ "learning_rate": 3.297683033120279e-05,
523
+ "epoch": 0.3404633933759442,
524
+ "total_flos": 114868653272469504,
525
+ "step": 37500
526
+ },
527
+ {
528
+ "loss": 3.89365625,
529
+ "learning_rate": 3.274985473561883e-05,
530
+ "epoch": 0.34500290528762345,
531
+ "total_flos": 116403814489061376,
532
+ "step": 38000
533
+ },
534
+ {
535
+ "loss": 3.86290625,
536
+ "learning_rate": 3.252287914003487e-05,
537
+ "epoch": 0.34954241719930274,
538
+ "total_flos": 117934117752748032,
539
+ "step": 38500
540
+ },
541
+ {
542
+ "loss": 3.84853125,
543
+ "learning_rate": 3.22959035444509e-05,
544
+ "epoch": 0.35408192911098196,
545
+ "total_flos": 119463771686095872,
546
+ "step": 39000
547
+ },
548
+ {
549
+ "loss": 3.8525,
550
+ "learning_rate": 3.206892794886694e-05,
551
+ "epoch": 0.35862144102266125,
552
+ "total_flos": 120998981001231360,
553
+ "step": 39500
554
+ },
555
+ {
556
+ "loss": 3.8159375,
557
+ "learning_rate": 3.1841952353282975e-05,
558
+ "epoch": 0.3631609529343405,
559
+ "total_flos": 122533011902048256,
560
+ "step": 40000
561
+ },
562
+ {
563
+ "loss": 3.81184375,
564
+ "learning_rate": 3.1614976757699014e-05,
565
+ "epoch": 0.36770046484601976,
566
+ "total_flos": 124066008684177408,
567
+ "step": 40500
568
+ },
569
+ {
570
+ "loss": 3.80665625,
571
+ "learning_rate": 3.1388001162115046e-05,
572
+ "epoch": 0.372239976757699,
573
+ "total_flos": 125597610608541696,
574
+ "step": 41000
575
+ },
576
+ {
577
+ "loss": 3.78921875,
578
+ "learning_rate": 3.1161025566531086e-05,
579
+ "epoch": 0.37677948866937827,
580
+ "total_flos": 127130006158875648,
581
+ "step": 41500
582
+ },
583
+ {
584
+ "loss": 3.7755,
585
+ "learning_rate": 3.0934049970947125e-05,
586
+ "epoch": 0.3813190005810575,
587
+ "total_flos": 128661632132511744,
588
+ "step": 42000
589
+ },
590
+ {
591
+ "loss": 3.76021875,
592
+ "learning_rate": 3.0707074375363164e-05,
593
+ "epoch": 0.3858585124927368,
594
+ "total_flos": 130193210007604224,
595
+ "step": 42500
596
+ },
597
+ {
598
+ "loss": 3.75678125,
599
+ "learning_rate": 3.04800987797792e-05,
600
+ "epoch": 0.390398024404416,
601
+ "total_flos": 131723801862552576,
602
+ "step": 43000
603
+ },
604
+ {
605
+ "loss": 3.74840625,
606
+ "learning_rate": 3.0253123184195235e-05,
607
+ "epoch": 0.3949375363160953,
608
+ "total_flos": 133253768436433920,
609
+ "step": 43500
610
+ },
611
+ {
612
+ "loss": 3.7486875,
613
+ "learning_rate": 3.0026147588611275e-05,
614
+ "epoch": 0.3994770482277745,
615
+ "total_flos": 134787727189435392,
616
+ "step": 44000
617
+ },
618
+ {
619
+ "loss": 3.7429375,
620
+ "learning_rate": 2.9799171993027314e-05,
621
+ "epoch": 0.4040165601394538,
622
+ "total_flos": 136321589745349632,
623
+ "step": 44500
624
+ },
625
+ {
626
+ "loss": 3.70103125,
627
+ "learning_rate": 2.9572196397443346e-05,
628
+ "epoch": 0.40855607205113303,
629
+ "total_flos": 137853696704421888,
630
+ "step": 45000
631
+ },
632
+ {
633
+ "loss": 3.7165625,
634
+ "learning_rate": 2.9345220801859385e-05,
635
+ "epoch": 0.4130955839628123,
636
+ "total_flos": 139387583309607936,
637
+ "step": 45500
638
+ },
639
+ {
640
+ "loss": 3.6774375,
641
+ "learning_rate": 2.9118245206275425e-05,
642
+ "epoch": 0.4176350958744916,
643
+ "total_flos": 140920796535183360,
644
+ "step": 46000
645
+ },
646
+ {
647
+ "loss": 3.6928125,
648
+ "learning_rate": 2.8891269610691457e-05,
649
+ "epoch": 0.42217460778617083,
650
+ "total_flos": 142455452717067264,
651
+ "step": 46500
652
+ },
653
+ {
654
+ "loss": 3.6948125,
655
+ "learning_rate": 2.8664294015107496e-05,
656
+ "epoch": 0.4267141196978501,
657
+ "total_flos": 143988545696283648,
658
+ "step": 47000
659
+ },
660
+ {
661
+ "loss": 3.65459375,
662
+ "learning_rate": 2.8437318419523535e-05,
663
+ "epoch": 0.43125363160952934,
664
+ "total_flos": 145519618536668160,
665
+ "step": 47500
666
+ },
667
+ {
668
+ "loss": 3.66340625,
669
+ "learning_rate": 2.821034282393957e-05,
670
+ "epoch": 0.4357931435212086,
671
+ "total_flos": 147054851901075456,
672
+ "step": 48000
673
+ },
674
+ {
675
+ "loss": 3.65359375,
676
+ "learning_rate": 2.7983367228355607e-05,
677
+ "epoch": 0.44033265543288785,
678
+ "total_flos": 148586742416701440,
679
+ "step": 48500
680
+ },
681
+ {
682
+ "loss": 3.64646875,
683
+ "learning_rate": 2.7756391632771643e-05,
684
+ "epoch": 0.44487216734456714,
685
+ "total_flos": 150117430468737024,
686
+ "step": 49000
687
+ },
688
+ {
689
+ "loss": 3.63471875,
690
+ "learning_rate": 2.7529416037187682e-05,
691
+ "epoch": 0.44941167925624637,
692
+ "total_flos": 151648912146742272,
693
+ "step": 49500
694
+ },
695
+ {
696
+ "loss": 3.60778125,
697
+ "learning_rate": 2.730244044160372e-05,
698
+ "epoch": 0.45395119116792565,
699
+ "total_flos": 153182077273774080,
700
+ "step": 50000
701
+ },
702
+ {
703
+ "loss": 3.5908125,
704
+ "learning_rate": 2.7075464846019754e-05,
705
+ "epoch": 0.4584907030796049,
706
+ "total_flos": 154711081876783104,
707
+ "step": 50500
708
+ },
709
+ {
710
+ "loss": 3.6209375,
711
+ "learning_rate": 2.6848489250435793e-05,
712
+ "epoch": 0.46303021499128416,
713
+ "total_flos": 156241240844838912,
714
+ "step": 51000
715
+ },
716
+ {
717
+ "loss": 3.596,
718
+ "learning_rate": 2.6621513654851832e-05,
719
+ "epoch": 0.4675697269029634,
720
+ "total_flos": 157773083261921280,
721
+ "step": 51500
722
+ },
723
+ {
724
+ "loss": 3.57665625,
725
+ "learning_rate": 2.639453805926787e-05,
726
+ "epoch": 0.4721092388146427,
727
+ "total_flos": 159301246140417024,
728
+ "step": 52000
729
+ },
730
+ {
731
+ "loss": 3.5551875,
732
+ "learning_rate": 2.6167562463683904e-05,
733
+ "epoch": 0.4766487507263219,
734
+ "total_flos": 160831573453375488,
735
+ "step": 52500
736
+ },
737
+ {
738
+ "loss": 3.57975,
739
+ "learning_rate": 2.5940586868099943e-05,
740
+ "epoch": 0.4811882626380012,
741
+ "total_flos": 162364834777494528,
742
+ "step": 53000
743
+ },
744
+ {
745
+ "loss": 3.55321875,
746
+ "learning_rate": 2.5713611272515982e-05,
747
+ "epoch": 0.4857277745496804,
748
+ "total_flos": 163897711313264640,
749
+ "step": 53500
750
+ },
751
+ {
752
+ "loss": 3.5406875,
753
+ "learning_rate": 2.5486635676932018e-05,
754
+ "epoch": 0.4902672864613597,
755
+ "total_flos": 165430708095393792,
756
+ "step": 54000
757
+ },
758
+ {
759
+ "loss": 3.5404375,
760
+ "learning_rate": 2.5259660081348054e-05,
761
+ "epoch": 0.4948067983730389,
762
+ "total_flos": 166962550512476160,
763
+ "step": 54500
764
+ },
765
+ {
766
+ "loss": 3.5504375,
767
+ "learning_rate": 2.503268448576409e-05,
768
+ "epoch": 0.4993463102847182,
769
+ "total_flos": 168496485216205824,
770
+ "step": 55000
771
+ },
772
+ {
773
+ "loss": 3.541,
774
+ "learning_rate": 2.480570889018013e-05,
775
+ "epoch": 0.5038858221963974,
776
+ "total_flos": 170029049111442432,
777
+ "step": 55500
778
+ },
779
+ {
780
+ "loss": 3.5195625,
781
+ "learning_rate": 2.4578733294596164e-05,
782
+ "epoch": 0.5084253341080767,
783
+ "total_flos": 171563681244054528,
784
+ "step": 56000
785
+ },
786
+ {
787
+ "loss": 3.51209375,
788
+ "learning_rate": 2.4351757699012204e-05,
789
+ "epoch": 0.512964846019756,
790
+ "total_flos": 173096076794388480,
791
+ "step": 56500
792
+ },
793
+ {
794
+ "loss": 3.509,
795
+ "learning_rate": 2.412478210342824e-05,
796
+ "epoch": 0.5175043579314352,
797
+ "total_flos": 174627462275306496,
798
+ "step": 57000
799
+ },
800
+ {
801
+ "loss": 3.51578125,
802
+ "learning_rate": 2.389780650784428e-05,
803
+ "epoch": 0.5220438698431145,
804
+ "total_flos": 176158102228798464,
805
+ "step": 57500
806
+ },
807
+ {
808
+ "loss": 3.48325,
809
+ "learning_rate": 2.3670830912260314e-05,
810
+ "epoch": 0.5265833817547937,
811
+ "total_flos": 177692157178887168,
812
+ "step": 58000
813
+ },
814
+ {
815
+ "loss": 3.474625,
816
+ "learning_rate": 2.3443855316676354e-05,
817
+ "epoch": 0.531122893666473,
818
+ "total_flos": 179225418503006208,
819
+ "step": 58500
820
+ },
821
+ {
822
+ "loss": 3.4898125,
823
+ "learning_rate": 2.321687972109239e-05,
824
+ "epoch": 0.5356624055781523,
825
+ "total_flos": 180754567401646080,
826
+ "step": 59000
827
+ },
828
+ {
829
+ "loss": 3.4839375,
830
+ "learning_rate": 2.298990412550843e-05,
831
+ "epoch": 0.5402019174898315,
832
+ "total_flos": 182287227493969920,
833
+ "step": 59500
834
+ },
835
+ {
836
+ "loss": 3.4523125,
837
+ "learning_rate": 2.2762928529924464e-05,
838
+ "epoch": 0.5447414294015107,
839
+ "total_flos": 183817578856200192,
840
+ "step": 60000
841
+ },
842
+ {
843
+ "loss": 3.467875,
844
+ "learning_rate": 2.25359529343405e-05,
845
+ "epoch": 0.54928094131319,
846
+ "total_flos": 185350335145611264,
847
+ "step": 60500
848
+ },
849
+ {
850
+ "loss": 3.4614375,
851
+ "learning_rate": 2.2308977338756536e-05,
852
+ "epoch": 0.5538204532248693,
853
+ "total_flos": 186880734606385152,
854
+ "step": 61000
855
+ },
856
+ {
857
+ "loss": 3.4434375,
858
+ "learning_rate": 2.2082001743172575e-05,
859
+ "epoch": 0.5583599651365485,
860
+ "total_flos": 188413827585601536,
861
+ "step": 61500
862
+ },
863
+ {
864
+ "loss": 3.440875,
865
+ "learning_rate": 2.185502614758861e-05,
866
+ "epoch": 0.5628994770482277,
867
+ "total_flos": 189945429509965824,
868
+ "step": 62000
869
+ },
870
+ {
871
+ "loss": 3.4280625,
872
+ "learning_rate": 2.162805055200465e-05,
873
+ "epoch": 0.5674389889599071,
874
+ "total_flos": 191479243967336448,
875
+ "step": 62500
876
+ },
877
+ {
878
+ "loss": 3.41775,
879
+ "learning_rate": 2.1401074956420686e-05,
880
+ "epoch": 0.5719785008715863,
881
+ "total_flos": 193010629448254464,
882
+ "step": 63000
883
+ },
884
+ {
885
+ "loss": 3.4230625,
886
+ "learning_rate": 2.1174099360836725e-05,
887
+ "epoch": 0.5765180127832655,
888
+ "total_flos": 194545213482322944,
889
+ "step": 63500
890
+ },
891
+ {
892
+ "loss": 3.3981875,
893
+ "learning_rate": 2.094712376525276e-05,
894
+ "epoch": 0.5810575246949448,
895
+ "total_flos": 196078571003529216,
896
+ "step": 64000
897
+ },
898
+ {
899
+ "loss": 3.41275,
900
+ "learning_rate": 2.07201481696688e-05,
901
+ "epoch": 0.5855970366066241,
902
+ "total_flos": 197608970464303104,
903
+ "step": 64500
904
+ },
905
+ {
906
+ "loss": 3.398,
907
+ "learning_rate": 2.0493172574084836e-05,
908
+ "epoch": 0.5901365485183033,
909
+ "total_flos": 199141414113180672,
910
+ "step": 65000
911
+ },
912
+ {
913
+ "loss": 3.399375,
914
+ "learning_rate": 2.026619697850087e-05,
915
+ "epoch": 0.5946760604299826,
916
+ "total_flos": 200673304628806656,
917
+ "step": 65500
918
+ },
919
+ {
920
+ "loss": 3.4090625,
921
+ "learning_rate": 2.0039221382916907e-05,
922
+ "epoch": 0.5992155723416618,
923
+ "total_flos": 202205628031325184,
924
+ "step": 66000
925
+ },
926
+ {
927
+ "loss": 3.3909375,
928
+ "learning_rate": 1.9812245787332947e-05,
929
+ "epoch": 0.6037550842533411,
930
+ "total_flos": 203738961503259648,
931
+ "step": 66500
932
+ },
933
+ {
934
+ "loss": 3.3735625,
935
+ "learning_rate": 1.9585270191748982e-05,
936
+ "epoch": 0.6082945961650204,
937
+ "total_flos": 205271789940486144,
938
+ "step": 67000
939
+ },
940
+ {
941
+ "loss": 3.36775,
942
+ "learning_rate": 1.935829459616502e-05,
943
+ "epoch": 0.6128341080766996,
944
+ "total_flos": 206805123412420608,
945
+ "step": 67500
946
+ },
947
+ {
948
+ "loss": 3.3604375,
949
+ "learning_rate": 1.9131319000581057e-05,
950
+ "epoch": 0.6173736199883788,
951
+ "total_flos": 208335643119553536,
952
+ "step": 68000
953
+ },
954
+ {
955
+ "loss": 3.36825,
956
+ "learning_rate": 1.8904343404997097e-05,
957
+ "epoch": 0.6219131319000581,
958
+ "total_flos": 209869096837847040,
959
+ "step": 68500
960
+ },
961
+ {
962
+ "loss": 3.340125,
963
+ "learning_rate": 1.8677367809413132e-05,
964
+ "epoch": 0.6264526438117374,
965
+ "total_flos": 211403344182110208,
966
+ "step": 69000
967
+ },
968
+ {
969
+ "loss": 3.33675,
970
+ "learning_rate": 1.845039221382917e-05,
971
+ "epoch": 0.6309921557234166,
972
+ "total_flos": 212935787830987776,
973
+ "step": 69500
974
+ },
975
+ {
976
+ "loss": 3.344125,
977
+ "learning_rate": 1.8223416618245207e-05,
978
+ "epoch": 0.6355316676350958,
979
+ "total_flos": 214466932819187712,
980
+ "step": 70000
981
+ },
982
+ {
983
+ "loss": 3.336,
984
+ "learning_rate": 1.7996441022661247e-05,
985
+ "epoch": 0.6400711795467752,
986
+ "total_flos": 215998222103018496,
987
+ "step": 70500
988
+ },
989
+ {
990
+ "loss": 3.349375,
991
+ "learning_rate": 1.7769465427077282e-05,
992
+ "epoch": 0.6446106914584544,
993
+ "total_flos": 217531844166214656,
994
+ "step": 71000
995
+ },
996
+ {
997
+ "loss": 3.3093125,
998
+ "learning_rate": 1.7542489831493318e-05,
999
+ "epoch": 0.6491502033701336,
1000
+ "total_flos": 219061257606844416,
1001
+ "step": 71500
1002
+ },
1003
+ {
1004
+ "loss": 3.314375,
1005
+ "learning_rate": 1.7315514235909354e-05,
1006
+ "epoch": 0.6536897152818129,
1007
+ "total_flos": 220591969708151808,
1008
+ "step": 72000
1009
+ },
1010
+ {
1011
+ "loss": 3.3166875,
1012
+ "learning_rate": 1.7088538640325393e-05,
1013
+ "epoch": 0.6582292271934922,
1014
+ "total_flos": 222126144904599552,
1015
+ "step": 72500
1016
+ },
1017
+ {
1018
+ "loss": 3.32175,
1019
+ "learning_rate": 1.686156304474143e-05,
1020
+ "epoch": 0.6627687391051714,
1021
+ "total_flos": 223658997391097856,
1022
+ "step": 73000
1023
+ },
1024
+ {
1025
+ "loss": 3.2955625,
1026
+ "learning_rate": 1.6634587449157468e-05,
1027
+ "epoch": 0.6673082510168507,
1028
+ "total_flos": 225189493048958976,
1029
+ "step": 73500
1030
+ },
1031
+ {
1032
+ "loss": 3.35425,
1033
+ "learning_rate": 1.6407611853573504e-05,
1034
+ "epoch": 0.6718477629285299,
1035
+ "total_flos": 226722032894923776,
1036
+ "step": 74000
1037
+ },
1038
+ {
1039
+ "loss": 3.2941875,
1040
+ "learning_rate": 1.6180636257989543e-05,
1041
+ "epoch": 0.6763872748402092,
1042
+ "total_flos": 228254404395985920,
1043
+ "step": 74500
1044
+ },
1045
+ {
1046
+ "loss": 3.2930625,
1047
+ "learning_rate": 1.595366066240558e-05,
1048
+ "epoch": 0.6809267867518884,
1049
+ "total_flos": 229787834065007616,
1050
+ "step": 75000
1051
+ },
1052
+ {
1053
+ "loss": 3.3018125,
1054
+ "learning_rate": 1.5726685066821618e-05,
1055
+ "epoch": 0.6854662986635677,
1056
+ "total_flos": 231321937113639936,
1057
+ "step": 75500
1058
+ },
1059
+ {
1060
+ "loss": 3.2865,
1061
+ "learning_rate": 1.5499709471237654e-05,
1062
+ "epoch": 0.6900058105752469,
1063
+ "total_flos": 232855607275379712,
1064
+ "step": 76000
1065
+ },
1066
+ {
1067
+ "loss": 3.2755,
1068
+ "learning_rate": 1.5272733875653693e-05,
1069
+ "epoch": 0.6945453224869262,
1070
+ "total_flos": 234390022964545536,
1071
+ "step": 76500
1072
+ },
1073
+ {
1074
+ "loss": 3.2875625,
1075
+ "learning_rate": 1.5045758280069727e-05,
1076
+ "epoch": 0.6990848343986055,
1077
+ "total_flos": 235921119854201856,
1078
+ "step": 77000
1079
+ },
1080
+ {
1081
+ "loss": 3.254,
1082
+ "learning_rate": 1.4818782684485766e-05,
1083
+ "epoch": 0.7036243463102847,
1084
+ "total_flos": 237454693818854400,
1085
+ "step": 77500
1086
+ },
1087
+ {
1088
+ "loss": 3.25675,
1089
+ "learning_rate": 1.4591807088901802e-05,
1090
+ "epoch": 0.7081638582219639,
1091
+ "total_flos": 238986728630111232,
1092
+ "step": 78000
1093
+ },
1094
+ {
1095
+ "loss": 3.2600625,
1096
+ "learning_rate": 1.436483149331784e-05,
1097
+ "epoch": 0.7127033701336433,
1098
+ "total_flos": 240520519038210048,
1099
+ "step": 78500
1100
+ },
1101
+ {
1102
+ "loss": 3.26825,
1103
+ "learning_rate": 1.4137855897733875e-05,
1104
+ "epoch": 0.7172428820453225,
1105
+ "total_flos": 242053515820339200,
1106
+ "step": 79000
1107
+ },
1108
+ {
1109
+ "loss": 3.2588125,
1110
+ "learning_rate": 1.3910880302149915e-05,
1111
+ "epoch": 0.7217823939570017,
1112
+ "total_flos": 243586416405381120,
1113
+ "step": 79500
1114
+ },
1115
+ {
1116
+ "loss": 3.249,
1117
+ "learning_rate": 1.368390470656595e-05,
1118
+ "epoch": 0.726321905868681,
1119
+ "total_flos": 245117368999406592,
1120
+ "step": 80000
1121
+ },
1122
+ {
1123
+ "loss": 3.24175,
1124
+ "learning_rate": 1.345692911098199e-05,
1125
+ "epoch": 0.7308614177803603,
1126
+ "total_flos": 246648778529596416,
1127
+ "step": 80500
1128
+ },
1129
+ {
1130
+ "loss": 3.2466875,
1131
+ "learning_rate": 1.3229953515398025e-05,
1132
+ "epoch": 0.7354009296920395,
1133
+ "total_flos": 248182496789879808,
1134
+ "step": 81000
1135
+ },
1136
+ {
1137
+ "loss": 3.2416875,
1138
+ "learning_rate": 1.3002977919814063e-05,
1139
+ "epoch": 0.7399404416037187,
1140
+ "total_flos": 249716022655988736,
1141
+ "step": 81500
1142
+ },
1143
+ {
1144
+ "loss": 3.2241875,
1145
+ "learning_rate": 1.2776002324230099e-05,
1146
+ "epoch": 0.744479953515398,
1147
+ "total_flos": 251249211832292352,
1148
+ "step": 82000
1149
+ },
1150
+ {
1151
+ "loss": 3.2393125,
1152
+ "learning_rate": 1.2549026728646138e-05,
1153
+ "epoch": 0.7490194654270773,
1154
+ "total_flos": 252781751678257152,
1155
+ "step": 82500
1156
+ },
1157
+ {
1158
+ "loss": 3.2358125,
1159
+ "learning_rate": 1.2322051133062174e-05,
1160
+ "epoch": 0.7535589773387565,
1161
+ "total_flos": 254314387721309184,
1162
+ "step": 83000
1163
+ },
1164
+ {
1165
+ "loss": 3.205125,
1166
+ "learning_rate": 1.2095075537478211e-05,
1167
+ "epoch": 0.7580984892504358,
1168
+ "total_flos": 255847456651253760,
1169
+ "step": 83500
1170
+ },
1171
+ {
1172
+ "loss": 3.2190625,
1173
+ "learning_rate": 1.1868099941894249e-05,
1174
+ "epoch": 0.762638001162115,
1175
+ "total_flos": 257379034526346240,
1176
+ "step": 84000
1177
+ },
1178
+ {
1179
+ "loss": 3.2224375,
1180
+ "learning_rate": 1.1641124346310285e-05,
1181
+ "epoch": 0.7671775130737943,
1182
+ "total_flos": 258912247751921664,
1183
+ "step": 84500
1184
+ },
1185
+ {
1186
+ "loss": 3.225,
1187
+ "learning_rate": 1.1414148750726322e-05,
1188
+ "epoch": 0.7717170249854736,
1189
+ "total_flos": 260445460977497088,
1190
+ "step": 85000
1191
+ },
1192
+ {
1193
+ "loss": 3.2075625,
1194
+ "learning_rate": 1.118717315514236e-05,
1195
+ "epoch": 0.7762565368971528,
1196
+ "total_flos": 261975668044096512,
1197
+ "step": 85500
1198
+ },
1199
+ {
1200
+ "loss": 3.19675,
1201
+ "learning_rate": 1.0960197559558397e-05,
1202
+ "epoch": 0.780796048808832,
1203
+ "total_flos": 263509434402923520,
1204
+ "step": 86000
1205
+ },
1206
+ {
1207
+ "loss": 3.2095,
1208
+ "learning_rate": 1.0733221963974434e-05,
1209
+ "epoch": 0.7853355607205114,
1210
+ "total_flos": 265042815973401600,
1211
+ "step": 86500
1212
+ },
1213
+ {
1214
+ "loss": 3.2146875,
1215
+ "learning_rate": 1.050624636839047e-05,
1216
+ "epoch": 0.7898750726321906,
1217
+ "total_flos": 266577448106013696,
1218
+ "step": 87000
1219
+ },
1220
+ {
1221
+ "loss": 3.1964375,
1222
+ "learning_rate": 1.0279270772806508e-05,
1223
+ "epoch": 0.7944145845438698,
1224
+ "total_flos": 268109699360716800,
1225
+ "step": 87500
1226
+ },
1227
+ {
1228
+ "loss": 3.1685625,
1229
+ "learning_rate": 1.0052295177222545e-05,
1230
+ "epoch": 0.798954096455549,
1231
+ "total_flos": 269643032832651264,
1232
+ "step": 88000
1233
+ },
1234
+ {
1235
+ "loss": 3.1924375,
1236
+ "learning_rate": 9.825319581638583e-06,
1237
+ "epoch": 0.8034936083672284,
1238
+ "total_flos": 271174490461384704,
1239
+ "step": 88500
1240
+ },
1241
+ {
1242
+ "loss": 3.198875,
1243
+ "learning_rate": 9.59834398605462e-06,
1244
+ "epoch": 0.8080331202789076,
1245
+ "total_flos": 272707270800067584,
1246
+ "step": 89000
1247
+ },
1248
+ {
1249
+ "loss": 3.2030625,
1250
+ "learning_rate": 9.371368390470658e-06,
1251
+ "epoch": 0.8125726321905868,
1252
+ "total_flos": 274237501915938816,
1253
+ "step": 89500
1254
+ },
1255
+ {
1256
+ "loss": 3.183125,
1257
+ "learning_rate": 9.144392794886694e-06,
1258
+ "epoch": 0.8171121441022661,
1259
+ "total_flos": 275768502608507904,
1260
+ "step": 90000
1261
+ },
1262
+ {
1263
+ "loss": 3.1576875,
1264
+ "learning_rate": 8.917417199302731e-06,
1265
+ "epoch": 0.8216516560139454,
1266
+ "total_flos": 277300705764667392,
1267
+ "step": 90500
1268
+ },
1269
+ {
1270
+ "loss": 3.1826875,
1271
+ "learning_rate": 8.690441603718769e-06,
1272
+ "epoch": 0.8261911679256246,
1273
+ "total_flos": 278832163393400832,
1274
+ "step": 91000
1275
+ },
1276
+ {
1277
+ "loss": 3.1574375,
1278
+ "learning_rate": 8.463466008134806e-06,
1279
+ "epoch": 0.8307306798373039,
1280
+ "total_flos": 280364631091550208,
1281
+ "step": 91500
1282
+ },
1283
+ {
1284
+ "loss": 3.160125,
1285
+ "learning_rate": 8.236490412550844e-06,
1286
+ "epoch": 0.8352701917489832,
1287
+ "total_flos": 281895944424652800,
1288
+ "step": 92000
1289
+ },
1290
+ {
1291
+ "loss": 3.163875,
1292
+ "learning_rate": 8.009514816966881e-06,
1293
+ "epoch": 0.8398097036606624,
1294
+ "total_flos": 283429542438577152,
1295
+ "step": 92500
1296
+ },
1297
+ {
1298
+ "loss": 3.177625,
1299
+ "learning_rate": 7.782539221382917e-06,
1300
+ "epoch": 0.8443492155723417,
1301
+ "total_flos": 284961793693280256,
1302
+ "step": 93000
1303
+ },
1304
+ {
1305
+ "loss": 3.161875,
1306
+ "learning_rate": 7.555563625798954e-06,
1307
+ "epoch": 0.8488887274840209,
1308
+ "total_flos": 286495920791184384,
1309
+ "step": 93500
1310
+ },
1311
+ {
1312
+ "loss": 3.16925,
1313
+ "learning_rate": 7.328588030214992e-06,
1314
+ "epoch": 0.8534282393957002,
1315
+ "total_flos": 288029470706565120,
1316
+ "step": 94000
1317
+ },
1318
+ {
1319
+ "loss": 3.1579375,
1320
+ "learning_rate": 7.101612434631029e-06,
1321
+ "epoch": 0.8579677513073795,
1322
+ "total_flos": 289561505517821952,
1323
+ "step": 94500
1324
+ },
1325
+ {
1326
+ "loss": 3.1499375,
1327
+ "learning_rate": 6.874636839047066e-06,
1328
+ "epoch": 0.8625072632190587,
1329
+ "total_flos": 291092097372770304,
1330
+ "step": 95000
1331
+ },
1332
+ {
1333
+ "loss": 3.1406875,
1334
+ "learning_rate": 6.6476612434631034e-06,
1335
+ "epoch": 0.8670467751307379,
1336
+ "total_flos": 292625791583781888,
1337
+ "step": 95500
1338
+ },
1339
+ {
1340
+ "loss": 3.1599375,
1341
+ "learning_rate": 6.420685647879141e-06,
1342
+ "epoch": 0.8715862870424173,
1343
+ "total_flos": 294158114986300416,
1344
+ "step": 96000
1345
+ },
1346
+ {
1347
+ "loss": 3.1481875,
1348
+ "learning_rate": 6.1937100522951776e-06,
1349
+ "epoch": 0.8761257989540965,
1350
+ "total_flos": 295691833246583808,
1351
+ "step": 96500
1352
+ },
1353
+ {
1354
+ "loss": 3.13575,
1355
+ "learning_rate": 5.966734456711215e-06,
1356
+ "epoch": 0.8806653108657757,
1357
+ "total_flos": 297225791999585280,
1358
+ "step": 97000
1359
+ },
1360
+ {
1361
+ "loss": 3.1423125,
1362
+ "learning_rate": 5.739758861127252e-06,
1363
+ "epoch": 0.8852048227774549,
1364
+ "total_flos": 298758620436811776,
1365
+ "step": 97500
1366
+ },
1367
+ {
1368
+ "loss": 3.157625,
1369
+ "learning_rate": 5.512783265543289e-06,
1370
+ "epoch": 0.8897443346891343,
1371
+ "total_flos": 300291689366756352,
1372
+ "step": 98000
1373
+ },
1374
+ {
1375
+ "loss": 3.126125,
1376
+ "learning_rate": 5.285807669959327e-06,
1377
+ "epoch": 0.8942838466008135,
1378
+ "total_flos": 301824734247429120,
1379
+ "step": 98500
1380
+ },
1381
+ {
1382
+ "loss": 3.1455625,
1383
+ "learning_rate": 5.058832074375363e-06,
1384
+ "epoch": 0.8988233585124927,
1385
+ "total_flos": 303358115817907200,
1386
+ "step": 99000
1387
+ },
1388
+ {
1389
+ "loss": 3.1365625,
1390
+ "learning_rate": 4.831856478791401e-06,
1391
+ "epoch": 0.903362870424172,
1392
+ "total_flos": 304890920205861888,
1393
+ "step": 99500
1394
+ },
1395
+ {
1396
+ "loss": 3.131625,
1397
+ "learning_rate": 4.604880883207438e-06,
1398
+ "epoch": 0.9079023823358513,
1399
+ "total_flos": 306422858820031488,
1400
+ "step": 100000
1401
+ },
1402
+ {
1403
+ "loss": 3.15225,
1404
+ "learning_rate": 4.377905287623475e-06,
1405
+ "epoch": 0.9124418942475305,
1406
+ "total_flos": 307953498773523456,
1407
+ "step": 100500
1408
+ },
1409
+ {
1410
+ "loss": 3.145,
1411
+ "learning_rate": 4.1509296920395125e-06,
1412
+ "epoch": 0.9169814061592098,
1413
+ "total_flos": 309485365239877632,
1414
+ "step": 101000
1415
+ },
1416
+ {
1417
+ "loss": 3.1263125,
1418
+ "learning_rate": 3.92395409645555e-06,
1419
+ "epoch": 0.921520918070889,
1420
+ "total_flos": 311017039312057344,
1421
+ "step": 101500
1422
+ },
1423
+ {
1424
+ "loss": 3.12225,
1425
+ "learning_rate": 3.696978500871586e-06,
1426
+ "epoch": 0.9260604299825683,
1427
+ "total_flos": 312548977926226944,
1428
+ "step": 102000
1429
+ },
1430
+ {
1431
+ "loss": 3.1128125,
1432
+ "learning_rate": 3.4700029052876232e-06,
1433
+ "epoch": 0.9305999418942476,
1434
+ "total_flos": 314081493722919936,
1435
+ "step": 102500
1436
+ },
1437
+ {
1438
+ "loss": 3.1099375,
1439
+ "learning_rate": 3.2430273097036603e-06,
1440
+ "epoch": 0.9351394538059268,
1441
+ "total_flos": 315613744977623040,
1442
+ "step": 103000
1443
+ },
1444
+ {
1445
+ "loss": 3.114,
1446
+ "learning_rate": 3.0160517141196982e-06,
1447
+ "epoch": 0.939678965717606,
1448
+ "total_flos": 317144096339853312,
1449
+ "step": 103500
1450
+ },
1451
+ {
1452
+ "loss": 3.1200625,
1453
+ "learning_rate": 2.7890761185357353e-06,
1454
+ "epoch": 0.9442184776292853,
1455
+ "total_flos": 318675169180237824,
1456
+ "step": 104000
1457
+ },
1458
+ {
1459
+ "loss": 3.104625,
1460
+ "learning_rate": 2.5621005229517724e-06,
1461
+ "epoch": 0.9487579895409646,
1462
+ "total_flos": 320208959588336640,
1463
+ "step": 104500
1464
+ },
1465
+ {
1466
+ "loss": 3.1181875,
1467
+ "learning_rate": 2.3351249273678094e-06,
1468
+ "epoch": 0.9532975014526438,
1469
+ "total_flos": 321739960280905728,
1470
+ "step": 105000
1471
+ },
1472
+ {
1473
+ "loss": 3.1073125,
1474
+ "learning_rate": 2.108149331783847e-06,
1475
+ "epoch": 0.957837013364323,
1476
+ "total_flos": 323273894984635392,
1477
+ "step": 105500
1478
+ },
1479
+ {
1480
+ "loss": 3.141375,
1481
+ "learning_rate": 1.881173736199884e-06,
1482
+ "epoch": 0.9623765252760024,
1483
+ "total_flos": 324804607085942784,
1484
+ "step": 106000
1485
+ },
1486
+ {
1487
+ "loss": 3.1269375,
1488
+ "learning_rate": 1.6541981406159213e-06,
1489
+ "epoch": 0.9669160371876816,
1490
+ "total_flos": 326337627917343744,
1491
+ "step": 106500
1492
+ },
1493
+ {
1494
+ "loss": 3.118,
1495
+ "learning_rate": 1.4272225450319581e-06,
1496
+ "epoch": 0.9714555490993608,
1497
+ "total_flos": 327871298079083520,
1498
+ "step": 107000
1499
+ },
1500
+ {
1501
+ "loss": 3.1175,
1502
+ "learning_rate": 1.2002469494479954e-06,
1503
+ "epoch": 0.97599506101104,
1504
+ "total_flos": 329401745638401024,
1505
+ "step": 107500
1506
+ },
1507
+ {
1508
+ "loss": 3.120375,
1509
+ "learning_rate": 9.732713538640327e-07,
1510
+ "epoch": 0.9805345729227194,
1511
+ "total_flos": 330934525977083904,
1512
+ "step": 108000
1513
+ },
1514
+ {
1515
+ "loss": 3.0920625,
1516
+ "learning_rate": 7.462957582800698e-07,
1517
+ "epoch": 0.9850740848343986,
1518
+ "total_flos": 332464155861159936,
1519
+ "step": 108500
1520
+ },
1521
+ {
1522
+ "loss": 3.0940625,
1523
+ "learning_rate": 5.19320162696107e-07,
1524
+ "epoch": 0.9896135967460779,
1525
+ "total_flos": 333995685637708800,
1526
+ "step": 109000
1527
+ },
1528
+ {
1529
+ "loss": 3.10975,
1530
+ "learning_rate": 2.923445671121441e-07,
1531
+ "epoch": 0.9941531086577571,
1532
+ "total_flos": 335529836784884736,
1533
+ "step": 109500
1534
+ },
1535
+ {
1536
+ "loss": 3.115375,
1537
+ "learning_rate": 6.536897152818129e-08,
1538
+ "epoch": 0.9986926205694364,
1539
+ "total_flos": 337063434798809088,
1540
+ "step": 110000
1541
+ }
1542
+ ]