system HF staff commited on
Commit
ac7214a
1 Parent(s): b751993

Update log_history.json

Browse files
Files changed (1) hide show
  1. log_history.json +429 -0
log_history.json ADDED
@@ -0,0 +1,429 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "loss": 5.60179638671875,
4
+ "learning_rate": 4.9189600959512466e-05,
5
+ "epoch": 0.048623942429252165,
6
+ "total_flos": 127437846067872,
7
+ "step": 500
8
+ },
9
+ {
10
+ "loss": 4.56484326171875,
11
+ "learning_rate": 4.837920191902493e-05,
12
+ "epoch": 0.09724788485850433,
13
+ "total_flos": 258224201311392,
14
+ "step": 1000
15
+ },
16
+ {
17
+ "loss": 4.172212890625,
18
+ "learning_rate": 4.756880287853739e-05,
19
+ "epoch": 0.1458718272877565,
20
+ "total_flos": 389157743771424,
21
+ "step": 1500
22
+ },
23
+ {
24
+ "loss": 4.0773701171875,
25
+ "learning_rate": 4.6758403838049856e-05,
26
+ "epoch": 0.19449576971700866,
27
+ "total_flos": 515696696481312,
28
+ "step": 2000
29
+ },
30
+ {
31
+ "loss": 3.90251953125,
32
+ "learning_rate": 4.594800479756232e-05,
33
+ "epoch": 0.24311971214626082,
34
+ "total_flos": 643145055921792,
35
+ "step": 2500
36
+ },
37
+ {
38
+ "loss": 3.74609375,
39
+ "learning_rate": 4.513760575707479e-05,
40
+ "epoch": 0.291743654575513,
41
+ "total_flos": 771103313933760,
42
+ "step": 3000
43
+ },
44
+ {
45
+ "loss": 3.63271875,
46
+ "learning_rate": 4.432720671658725e-05,
47
+ "epoch": 0.34036759700476515,
48
+ "total_flos": 899392743182880,
49
+ "step": 3500
50
+ },
51
+ {
52
+ "loss": 3.617484375,
53
+ "learning_rate": 4.3516807676099715e-05,
54
+ "epoch": 0.3889915394340173,
55
+ "total_flos": 1031971628456064,
56
+ "step": 4000
57
+ },
58
+ {
59
+ "loss": 3.59037109375,
60
+ "learning_rate": 4.270640863561218e-05,
61
+ "epoch": 0.4376154818632695,
62
+ "total_flos": 1159745902447392,
63
+ "step": 4500
64
+ },
65
+ {
66
+ "loss": 3.5753984375,
67
+ "learning_rate": 4.189600959512464e-05,
68
+ "epoch": 0.48623942429252165,
69
+ "total_flos": 1288030075010208,
70
+ "step": 5000
71
+ },
72
+ {
73
+ "loss": 3.5130390625,
74
+ "learning_rate": 4.1085610554637105e-05,
75
+ "epoch": 0.5348633667217738,
76
+ "total_flos": 1414432353876192,
77
+ "step": 5500
78
+ },
79
+ {
80
+ "loss": 3.469171875,
81
+ "learning_rate": 4.027521151414957e-05,
82
+ "epoch": 0.583487309151026,
83
+ "total_flos": 1539068386144032,
84
+ "step": 6000
85
+ },
86
+ {
87
+ "loss": 3.4336640625,
88
+ "learning_rate": 3.946481247366203e-05,
89
+ "epoch": 0.6321112515802781,
90
+ "total_flos": 1667946564259200,
91
+ "step": 6500
92
+ },
93
+ {
94
+ "loss": 3.39712109375,
95
+ "learning_rate": 3.8654413433174495e-05,
96
+ "epoch": 0.6807351940095303,
97
+ "total_flos": 1794422436733440,
98
+ "step": 7000
99
+ },
100
+ {
101
+ "loss": 3.3770703125,
102
+ "learning_rate": 3.784401439268696e-05,
103
+ "epoch": 0.7293591364387825,
104
+ "total_flos": 1922738149414080,
105
+ "step": 7500
106
+ },
107
+ {
108
+ "loss": 3.3730703125,
109
+ "learning_rate": 3.703361535219942e-05,
110
+ "epoch": 0.7779830788680346,
111
+ "total_flos": 2052888445614816,
112
+ "step": 8000
113
+ },
114
+ {
115
+ "loss": 3.310546875,
116
+ "learning_rate": 3.622321631171189e-05,
117
+ "epoch": 0.8266070212972868,
118
+ "total_flos": 2186350454187072,
119
+ "step": 8500
120
+ },
121
+ {
122
+ "loss": 3.260265625,
123
+ "learning_rate": 3.5412817271224355e-05,
124
+ "epoch": 0.875230963726539,
125
+ "total_flos": 2314024851138624,
126
+ "step": 9000
127
+ },
128
+ {
129
+ "loss": 3.2306796875,
130
+ "learning_rate": 3.460241823073682e-05,
131
+ "epoch": 0.9238549061557911,
132
+ "total_flos": 2442719045233152,
133
+ "step": 9500
134
+ },
135
+ {
136
+ "loss": 3.2746796875,
137
+ "learning_rate": 3.379201919024928e-05,
138
+ "epoch": 0.9724788485850433,
139
+ "total_flos": 2569378901728032,
140
+ "step": 10000
141
+ },
142
+ {
143
+ "loss": 3.1525703125,
144
+ "learning_rate": 3.2981620149761745e-05,
145
+ "epoch": 1.0211027910142954,
146
+ "total_flos": 2698954904950056,
147
+ "step": 10500
148
+ },
149
+ {
150
+ "loss": 3.2410859375,
151
+ "learning_rate": 3.217122110927421e-05,
152
+ "epoch": 1.0697267334435476,
153
+ "total_flos": 2828821340090376,
154
+ "step": 11000
155
+ },
156
+ {
157
+ "loss": 3.0903984375,
158
+ "learning_rate": 3.136082206878667e-05,
159
+ "epoch": 1.1183506758727997,
160
+ "total_flos": 2958682518544392,
161
+ "step": 11500
162
+ },
163
+ {
164
+ "loss": 3.08865625,
165
+ "learning_rate": 3.0550423028299135e-05,
166
+ "epoch": 1.166974618302052,
167
+ "total_flos": 3088039055113224,
168
+ "step": 12000
169
+ },
170
+ {
171
+ "loss": 3.1113671875,
172
+ "learning_rate": 2.9740023987811598e-05,
173
+ "epoch": 1.215598560731304,
174
+ "total_flos": 3214535954332680,
175
+ "step": 12500
176
+ },
177
+ {
178
+ "loss": 3.088109375,
179
+ "learning_rate": 2.8929624947324065e-05,
180
+ "epoch": 1.2642225031605563,
181
+ "total_flos": 3340123446821544,
182
+ "step": 13000
183
+ },
184
+ {
185
+ "loss": 3.03825,
186
+ "learning_rate": 2.8119225906836528e-05,
187
+ "epoch": 1.3128464455898083,
188
+ "total_flos": 3469900518294696,
189
+ "step": 13500
190
+ },
191
+ {
192
+ "loss": 3.1165703125,
193
+ "learning_rate": 2.730882686634899e-05,
194
+ "epoch": 1.3614703880190606,
195
+ "total_flos": 3597664278913416,
196
+ "step": 14000
197
+ },
198
+ {
199
+ "loss": 3.0786875,
200
+ "learning_rate": 2.6498427825861454e-05,
201
+ "epoch": 1.4100943304483127,
202
+ "total_flos": 3726390013125768,
203
+ "step": 14500
204
+ },
205
+ {
206
+ "loss": 3.0769453125,
207
+ "learning_rate": 2.5688028785373918e-05,
208
+ "epoch": 1.458718272877565,
209
+ "total_flos": 3854211597293832,
210
+ "step": 15000
211
+ },
212
+ {
213
+ "loss": 2.9751015625,
214
+ "learning_rate": 2.487762974488638e-05,
215
+ "epoch": 1.5073422153068172,
216
+ "total_flos": 3979215597602952,
217
+ "step": 15500
218
+ },
219
+ {
220
+ "loss": 3.004953125,
221
+ "learning_rate": 2.4067230704398848e-05,
222
+ "epoch": 1.5559661577360693,
223
+ "total_flos": 4105360298840040,
224
+ "step": 16000
225
+ },
226
+ {
227
+ "loss": 3.0202265625,
228
+ "learning_rate": 2.325683166391131e-05,
229
+ "epoch": 1.6045901001653213,
230
+ "total_flos": 4232114775688392,
231
+ "step": 16500
232
+ },
233
+ {
234
+ "loss": 2.967203125,
235
+ "learning_rate": 2.2446432623423774e-05,
236
+ "epoch": 1.6532140425945736,
237
+ "total_flos": 4357849455393768,
238
+ "step": 17000
239
+ },
240
+ {
241
+ "loss": 2.95409375,
242
+ "learning_rate": 2.1636033582936237e-05,
243
+ "epoch": 1.7018379850238259,
244
+ "total_flos": 4487106114922824,
245
+ "step": 17500
246
+ },
247
+ {
248
+ "loss": 3.068265625,
249
+ "learning_rate": 2.08256345424487e-05,
250
+ "epoch": 1.750461927453078,
251
+ "total_flos": 4614885645600456,
252
+ "step": 18000
253
+ },
254
+ {
255
+ "loss": 2.992953125,
256
+ "learning_rate": 2.0015235501961167e-05,
257
+ "epoch": 1.79908586988233,
258
+ "total_flos": 4744000374599304,
259
+ "step": 18500
260
+ },
261
+ {
262
+ "loss": 2.9246953125,
263
+ "learning_rate": 1.920483646147363e-05,
264
+ "epoch": 1.8477098123115823,
265
+ "total_flos": 4872962659695336,
266
+ "step": 19000
267
+ },
268
+ {
269
+ "loss": 2.980765625,
270
+ "learning_rate": 1.8394437420986094e-05,
271
+ "epoch": 1.8963337547408345,
272
+ "total_flos": 5000447815939944,
273
+ "step": 19500
274
+ },
275
+ {
276
+ "loss": 2.95859375,
277
+ "learning_rate": 1.7584038380498557e-05,
278
+ "epoch": 1.9449576971700866,
279
+ "total_flos": 5130419384806344,
280
+ "step": 20000
281
+ },
282
+ {
283
+ "loss": 2.951875,
284
+ "learning_rate": 1.677363934001102e-05,
285
+ "epoch": 1.9935816395993387,
286
+ "total_flos": 5260301590005576,
287
+ "step": 20500
288
+ },
289
+ {
290
+ "loss": 2.90753125,
291
+ "learning_rate": 1.5963240299523484e-05,
292
+ "epoch": 2.0422055820285907,
293
+ "total_flos": 5386174914812220,
294
+ "step": 21000
295
+ },
296
+ {
297
+ "loss": 2.8725,
298
+ "learning_rate": 1.5152841259035949e-05,
299
+ "epoch": 2.090829524457843,
300
+ "total_flos": 5515216050202812,
301
+ "step": 21500
302
+ },
303
+ {
304
+ "loss": 2.813546875,
305
+ "learning_rate": 1.4342442218548414e-05,
306
+ "epoch": 2.1394534668870953,
307
+ "total_flos": 5644814394341628,
308
+ "step": 22000
309
+ },
310
+ {
311
+ "loss": 2.867796875,
312
+ "learning_rate": 1.3532043178060877e-05,
313
+ "epoch": 2.1880774093163473,
314
+ "total_flos": 5770811908362204,
315
+ "step": 22500
316
+ },
317
+ {
318
+ "loss": 2.797328125,
319
+ "learning_rate": 1.272164413757334e-05,
320
+ "epoch": 2.2367013517455994,
321
+ "total_flos": 5901487873193340,
322
+ "step": 23000
323
+ },
324
+ {
325
+ "loss": 2.8206875,
326
+ "learning_rate": 1.1911245097085805e-05,
327
+ "epoch": 2.285325294174852,
328
+ "total_flos": 6032090244416220,
329
+ "step": 23500
330
+ },
331
+ {
332
+ "loss": 2.835703125,
333
+ "learning_rate": 1.110084605659827e-05,
334
+ "epoch": 2.333949236604104,
335
+ "total_flos": 6158765870970012,
336
+ "step": 24000
337
+ },
338
+ {
339
+ "loss": 2.888296875,
340
+ "learning_rate": 1.0290447016110734e-05,
341
+ "epoch": 2.382573179033356,
342
+ "total_flos": 6289205284917468,
343
+ "step": 24500
344
+ },
345
+ {
346
+ "loss": 2.82090625,
347
+ "learning_rate": 9.480047975623198e-06,
348
+ "epoch": 2.431197121462608,
349
+ "total_flos": 6419592132001884,
350
+ "step": 25000
351
+ },
352
+ {
353
+ "loss": 2.832359375,
354
+ "learning_rate": 8.669648935135662e-06,
355
+ "epoch": 2.4798210638918605,
356
+ "total_flos": 6547245502208220,
357
+ "step": 25500
358
+ },
359
+ {
360
+ "loss": 2.81575,
361
+ "learning_rate": 7.859249894648125e-06,
362
+ "epoch": 2.5284450063211126,
363
+ "total_flos": 6676738712620956,
364
+ "step": 26000
365
+ },
366
+ {
367
+ "loss": 2.750359375,
368
+ "learning_rate": 7.048850854160589e-06,
369
+ "epoch": 2.5770689487503646,
370
+ "total_flos": 6806862725390172,
371
+ "step": 26500
372
+ },
373
+ {
374
+ "loss": 2.80775,
375
+ "learning_rate": 6.2384518136730525e-06,
376
+ "epoch": 2.6256928911796167,
377
+ "total_flos": 6936345422430300,
378
+ "step": 27000
379
+ },
380
+ {
381
+ "loss": 2.7769375,
382
+ "learning_rate": 5.4280527731855174e-06,
383
+ "epoch": 2.674316833608869,
384
+ "total_flos": 7062795011473020,
385
+ "step": 27500
386
+ },
387
+ {
388
+ "loss": 2.812875,
389
+ "learning_rate": 4.617653732697981e-06,
390
+ "epoch": 2.7229407760381212,
391
+ "total_flos": 7193202885302652,
392
+ "step": 28000
393
+ },
394
+ {
395
+ "loss": 2.82128125,
396
+ "learning_rate": 3.807254692210445e-06,
397
+ "epoch": 2.7715647184673733,
398
+ "total_flos": 7325014294375452,
399
+ "step": 28500
400
+ },
401
+ {
402
+ "loss": 2.7645625,
403
+ "learning_rate": 2.9968556517229085e-06,
404
+ "epoch": 2.8201886608966253,
405
+ "total_flos": 7450607043550620,
406
+ "step": 29000
407
+ },
408
+ {
409
+ "loss": 2.867234375,
410
+ "learning_rate": 2.1864566112353722e-06,
411
+ "epoch": 2.8688126033258774,
412
+ "total_flos": 7577203819809852,
413
+ "step": 29500
414
+ },
415
+ {
416
+ "loss": 2.772796875,
417
+ "learning_rate": 1.3760575707478364e-06,
418
+ "epoch": 2.91743654575513,
419
+ "total_flos": 7705477479000060,
420
+ "step": 30000
421
+ },
422
+ {
423
+ "loss": 2.80721875,
424
+ "learning_rate": 5.656585302603003e-07,
425
+ "epoch": 2.966060488184382,
426
+ "total_flos": 7829551045833372,
427
+ "step": 30500
428
+ }
429
+ ]