BuildTools commited on
Commit
a938276
1 Parent(s): ab11f40

update model 2.0

Browse files
xiaowo/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b7736d0582427d706ac424dcfe385990b4ba35f6481b446ae1fcaf041cc5e662
3
  size 234882351
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:32378b902fd71da7493f1556251fba21d3c228a4f497ec424f94adf2010247a6
3
  size 234882351
xiaowo/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c64795fba60fdadcfd8791a3b5dd9fd877febb3c560b99a25aab42b8118421d5
3
  size 117441341
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:96105bcddeb8ba5aafc18134d8de2a55c735e515a81c18d220f511a37b60d807
3
  size 117441341
xiaowo/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7bb7f4ea82efa2762df9b1d92c3cd635e2f206648536bff15c82e5349882c08b
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:530fbb591425bb69a00c22cecbb53df907d5d592d4d323396f49d86afcff5ef7
3
  size 14575
xiaowo/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:76865769b4b6b37c95369d34996cca04197a697394c214078eea0941cf10ccb9
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1505c75b267a11c5661f4cba5331fc2b30406beec216a02fb1be5f878615deae
3
  size 627
xiaowo/trainer_state.json CHANGED
@@ -1,3016 +1,1816 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.305008235222351,
5
- "global_step": 5000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
9
  "log_history": [
10
  {
11
  "epoch": 0.0,
12
- "learning_rate": 0.0024984848484848484,
13
- "loss": 8.3168,
14
  "step": 10
15
  },
16
  {
17
  "epoch": 0.0,
18
- "learning_rate": 0.002496969696969697,
19
- "loss": 7.4992,
20
  "step": 20
21
  },
22
  {
23
- "epoch": 0.0,
24
- "learning_rate": 0.0024954545454545455,
25
- "loss": 7.1773,
26
  "step": 30
27
  },
28
  {
29
- "epoch": 0.0,
30
- "learning_rate": 0.002493939393939394,
31
- "loss": 6.7129,
32
  "step": 40
33
  },
34
  {
35
- "epoch": 0.0,
36
- "learning_rate": 0.0024924242424242426,
37
- "loss": 5.6141,
38
  "step": 50
39
  },
40
  {
41
- "epoch": 0.0,
42
- "learning_rate": 0.002490909090909091,
43
- "loss": 5.4168,
44
  "step": 60
45
  },
46
  {
47
- "epoch": 0.0,
48
- "learning_rate": 0.0024893939393939393,
49
- "loss": 5.2236,
50
  "step": 70
51
  },
52
  {
53
- "epoch": 0.0,
54
- "learning_rate": 0.002487878787878788,
55
- "loss": 5.5969,
56
  "step": 80
57
  },
58
  {
59
- "epoch": 0.01,
60
- "learning_rate": 0.0024863636363636364,
61
- "loss": 5.2027,
62
  "step": 90
63
  },
64
  {
65
- "epoch": 0.01,
66
- "learning_rate": 0.0024848484848484847,
67
- "loss": 4.7475,
68
  "step": 100
69
  },
70
  {
71
- "epoch": 0.01,
72
- "learning_rate": 0.0024833333333333335,
73
- "loss": 4.7779,
74
  "step": 110
75
  },
76
  {
77
- "epoch": 0.01,
78
- "learning_rate": 0.002481818181818182,
79
- "loss": 4.4724,
80
  "step": 120
81
  },
82
  {
83
- "epoch": 0.01,
84
- "learning_rate": 0.00248030303030303,
85
- "loss": 5.1906,
86
  "step": 130
87
  },
88
  {
89
- "epoch": 0.01,
90
- "learning_rate": 0.0024787878787878785,
91
- "loss": 4.949,
92
  "step": 140
93
  },
94
  {
95
- "epoch": 0.01,
96
- "learning_rate": 0.0024772727272727273,
97
- "loss": 4.3598,
98
  "step": 150
99
  },
100
  {
101
- "epoch": 0.01,
102
- "learning_rate": 0.002475757575757576,
103
- "loss": 4.6328,
104
  "step": 160
105
  },
106
  {
107
- "epoch": 0.01,
108
- "learning_rate": 0.0024742424242424244,
109
- "loss": 4.6934,
110
  "step": 170
111
  },
112
  {
113
- "epoch": 0.01,
114
- "learning_rate": 0.0024727272727272727,
115
- "loss": 4.8184,
116
  "step": 180
117
  },
118
  {
119
- "epoch": 0.01,
120
- "learning_rate": 0.0024712121212121215,
121
- "loss": 4.6488,
122
  "step": 190
123
  },
124
  {
125
- "epoch": 0.01,
126
- "learning_rate": 0.00246969696969697,
127
- "loss": 4.7639,
128
  "step": 200
129
  },
130
  {
131
- "epoch": 0.01,
132
- "learning_rate": 0.002468181818181818,
133
- "loss": 4.6092,
134
  "step": 210
135
  },
136
  {
137
- "epoch": 0.01,
138
- "learning_rate": 0.002466666666666667,
139
- "loss": 4.8875,
140
  "step": 220
141
  },
142
  {
143
- "epoch": 0.01,
144
- "learning_rate": 0.0024651515151515153,
145
- "loss": 4.7232,
146
  "step": 230
147
  },
148
  {
149
- "epoch": 0.01,
150
- "learning_rate": 0.0024636363636363636,
151
- "loss": 5.1139,
152
  "step": 240
153
  },
154
  {
155
- "epoch": 0.02,
156
- "learning_rate": 0.0024621212121212124,
157
- "loss": 4.3293,
158
  "step": 250
159
  },
160
  {
161
- "epoch": 0.02,
162
- "learning_rate": 0.0024606060606060607,
163
- "loss": 4.6564,
164
  "step": 260
165
  },
166
  {
167
- "epoch": 0.02,
168
- "learning_rate": 0.002459090909090909,
169
- "loss": 4.7779,
170
  "step": 270
171
  },
172
  {
173
- "epoch": 0.02,
174
- "learning_rate": 0.002457575757575758,
175
- "loss": 4.6312,
176
  "step": 280
177
  },
178
  {
179
- "epoch": 0.02,
180
- "learning_rate": 0.002456060606060606,
181
- "loss": 4.4924,
182
  "step": 290
183
  },
184
  {
185
- "epoch": 0.02,
186
- "learning_rate": 0.0024545454545454545,
187
- "loss": 4.418,
188
  "step": 300
189
  },
190
  {
191
- "epoch": 0.02,
192
- "learning_rate": 0.0024530303030303032,
193
- "loss": 4.2307,
194
  "step": 310
195
  },
196
  {
197
- "epoch": 0.02,
198
- "learning_rate": 0.0024515151515151516,
199
- "loss": 4.3598,
200
  "step": 320
201
  },
202
  {
203
- "epoch": 0.02,
204
- "learning_rate": 0.00245,
205
- "loss": 4.6166,
206
  "step": 330
207
  },
208
  {
209
- "epoch": 0.02,
210
- "learning_rate": 0.0024484848484848487,
211
- "loss": 4.7531,
212
  "step": 340
213
  },
214
  {
215
- "epoch": 0.02,
216
- "learning_rate": 0.002446969696969697,
217
- "loss": 4.5492,
218
  "step": 350
219
  },
220
  {
221
- "epoch": 0.02,
222
- "learning_rate": 0.0024454545454545454,
223
- "loss": 4.5928,
224
  "step": 360
225
  },
226
  {
227
- "epoch": 0.02,
228
- "learning_rate": 0.0024439393939393937,
229
- "loss": 4.576,
230
  "step": 370
231
  },
232
  {
233
- "epoch": 0.02,
234
- "learning_rate": 0.0024424242424242425,
235
- "loss": 4.5797,
236
  "step": 380
237
  },
238
  {
239
- "epoch": 0.02,
240
- "learning_rate": 0.002440909090909091,
241
- "loss": 4.3904,
242
  "step": 390
243
  },
244
  {
245
- "epoch": 0.02,
246
- "learning_rate": 0.002439393939393939,
247
- "loss": 4.6285,
248
  "step": 400
249
  },
250
  {
251
- "epoch": 0.03,
252
- "learning_rate": 0.002437878787878788,
253
- "loss": 4.6023,
254
  "step": 410
255
  },
256
  {
257
- "epoch": 0.03,
258
- "learning_rate": 0.0024363636363636362,
259
- "loss": 4.3693,
260
  "step": 420
261
  },
262
  {
263
- "epoch": 0.03,
264
- "learning_rate": 0.002434848484848485,
265
- "loss": 4.585,
266
  "step": 430
267
  },
268
  {
269
- "epoch": 0.03,
270
- "learning_rate": 0.0024333333333333334,
271
- "loss": 4.7988,
272
  "step": 440
273
  },
274
  {
275
- "epoch": 0.03,
276
- "learning_rate": 0.002431818181818182,
277
- "loss": 4.2064,
278
  "step": 450
279
  },
280
  {
281
- "epoch": 0.03,
282
- "learning_rate": 0.0024303030303030305,
283
- "loss": 4.5627,
284
  "step": 460
285
  },
286
  {
287
- "epoch": 0.03,
288
- "learning_rate": 0.002428787878787879,
289
- "loss": 4.0707,
290
  "step": 470
291
  },
292
  {
293
- "epoch": 0.03,
294
- "learning_rate": 0.0024272727272727276,
295
- "loss": 4.5716,
296
  "step": 480
297
  },
298
  {
299
- "epoch": 0.03,
300
- "learning_rate": 0.002425757575757576,
301
- "loss": 4.3047,
302
  "step": 490
303
  },
304
  {
305
- "epoch": 0.03,
306
- "learning_rate": 0.0024242424242424242,
307
- "loss": 4.5617,
308
  "step": 500
309
  },
310
  {
311
- "epoch": 0.03,
312
- "learning_rate": 0.002422727272727273,
313
- "loss": 4.4297,
314
  "step": 510
315
  },
316
  {
317
- "epoch": 0.03,
318
- "learning_rate": 0.0024212121212121213,
319
- "loss": 4.8227,
320
  "step": 520
321
  },
322
  {
323
- "epoch": 0.03,
324
- "learning_rate": 0.0024196969696969697,
325
- "loss": 4.4693,
326
  "step": 530
327
  },
328
  {
329
- "epoch": 0.03,
330
- "learning_rate": 0.0024181818181818185,
331
- "loss": 4.3514,
332
  "step": 540
333
  },
334
  {
335
- "epoch": 0.03,
336
- "learning_rate": 0.002416666666666667,
337
- "loss": 4.368,
338
  "step": 550
339
  },
340
  {
341
- "epoch": 0.03,
342
- "learning_rate": 0.002415151515151515,
343
- "loss": 4.049,
344
  "step": 560
345
  },
346
  {
347
- "epoch": 0.03,
348
- "learning_rate": 0.002413636363636364,
349
- "loss": 4.5527,
350
  "step": 570
351
  },
352
  {
353
- "epoch": 0.04,
354
- "learning_rate": 0.0024121212121212122,
355
- "loss": 4.7082,
356
  "step": 580
357
  },
358
  {
359
- "epoch": 0.04,
360
- "learning_rate": 0.0024106060606060606,
361
- "loss": 4.2236,
362
  "step": 590
363
  },
364
  {
365
- "epoch": 0.04,
366
- "learning_rate": 0.002409090909090909,
367
- "loss": 4.5283,
368
  "step": 600
369
  },
370
  {
371
- "epoch": 0.04,
372
- "learning_rate": 0.0024075757575757577,
373
- "loss": 4.5746,
374
  "step": 610
375
  },
376
  {
377
- "epoch": 0.04,
378
- "learning_rate": 0.002406060606060606,
379
- "loss": 4.6463,
380
  "step": 620
381
  },
382
  {
383
- "epoch": 0.04,
384
- "learning_rate": 0.0024045454545454543,
385
- "loss": 4.4469,
386
  "step": 630
387
  },
388
  {
389
- "epoch": 0.04,
390
- "learning_rate": 0.002403030303030303,
391
- "loss": 4.6049,
392
  "step": 640
393
  },
394
  {
395
- "epoch": 0.04,
396
- "learning_rate": 0.0024015151515151515,
397
- "loss": 4.5684,
398
  "step": 650
399
  },
400
  {
401
- "epoch": 0.04,
402
- "learning_rate": 0.0024,
403
- "loss": 4.3484,
404
  "step": 660
405
  },
406
  {
407
- "epoch": 0.04,
408
- "learning_rate": 0.0023984848484848486,
409
- "loss": 4.8201,
410
  "step": 670
411
  },
412
  {
413
- "epoch": 0.04,
414
- "learning_rate": 0.002396969696969697,
415
- "loss": 4.2961,
416
  "step": 680
417
  },
418
  {
419
- "epoch": 0.04,
420
- "learning_rate": 0.0023954545454545452,
421
- "loss": 3.9297,
422
  "step": 690
423
  },
424
  {
425
- "epoch": 0.04,
426
- "learning_rate": 0.002393939393939394,
427
- "loss": 4.7969,
428
  "step": 700
429
  },
430
  {
431
- "epoch": 0.04,
432
- "learning_rate": 0.0023924242424242423,
433
- "loss": 4.5076,
434
  "step": 710
435
  },
436
  {
437
- "epoch": 0.04,
438
- "learning_rate": 0.002390909090909091,
439
- "loss": 4.8527,
440
  "step": 720
441
  },
442
  {
443
- "epoch": 0.04,
444
- "learning_rate": 0.0023893939393939394,
445
- "loss": 4.5695,
446
  "step": 730
447
  },
448
  {
449
- "epoch": 0.05,
450
- "learning_rate": 0.002387878787878788,
451
- "loss": 4.425,
452
  "step": 740
453
  },
454
  {
455
- "epoch": 0.05,
456
- "learning_rate": 0.0023863636363636366,
457
- "loss": 4.2727,
458
  "step": 750
459
  },
460
  {
461
- "epoch": 0.05,
462
- "learning_rate": 0.002384848484848485,
463
- "loss": 4.5701,
464
  "step": 760
465
  },
466
  {
467
- "epoch": 0.05,
468
- "learning_rate": 0.0023833333333333337,
469
- "loss": 3.857,
470
  "step": 770
471
  },
472
  {
473
- "epoch": 0.05,
474
- "learning_rate": 0.002381818181818182,
475
- "loss": 4.6637,
476
  "step": 780
477
  },
478
  {
479
- "epoch": 0.05,
480
- "learning_rate": 0.0023803030303030303,
481
- "loss": 4.6662,
482
  "step": 790
483
  },
484
  {
485
- "epoch": 0.05,
486
- "learning_rate": 0.002378787878787879,
487
- "loss": 4.6828,
488
  "step": 800
489
  },
490
  {
491
- "epoch": 0.05,
492
- "learning_rate": 0.0023772727272727274,
493
- "loss": 4.4822,
494
  "step": 810
495
  },
496
  {
497
- "epoch": 0.05,
498
- "learning_rate": 0.0023757575757575758,
499
- "loss": 4.5971,
500
  "step": 820
501
  },
502
  {
503
- "epoch": 0.05,
504
- "learning_rate": 0.002374242424242424,
505
- "loss": 4.2271,
506
  "step": 830
507
  },
508
  {
509
- "epoch": 0.05,
510
- "learning_rate": 0.002372727272727273,
511
- "loss": 3.6249,
512
  "step": 840
513
  },
514
  {
515
- "epoch": 0.05,
516
- "learning_rate": 0.002371212121212121,
517
- "loss": 4.3729,
518
  "step": 850
519
  },
520
  {
521
- "epoch": 0.05,
522
- "learning_rate": 0.0023696969696969696,
523
- "loss": 4.3625,
524
  "step": 860
525
  },
526
  {
527
- "epoch": 0.05,
528
- "learning_rate": 0.0023681818181818183,
529
- "loss": 3.9025,
530
  "step": 870
531
  },
532
  {
533
- "epoch": 0.05,
534
- "learning_rate": 0.0023666666666666667,
535
- "loss": 4.1387,
536
  "step": 880
537
  },
538
  {
539
- "epoch": 0.05,
540
- "learning_rate": 0.002365151515151515,
541
- "loss": 4.1297,
542
  "step": 890
543
  },
544
  {
545
- "epoch": 0.05,
546
- "learning_rate": 0.0023636363636363638,
547
- "loss": 4.4295,
548
  "step": 900
549
  },
550
  {
551
- "epoch": 0.06,
552
- "learning_rate": 0.002362121212121212,
553
- "loss": 4.315,
554
  "step": 910
555
  },
556
  {
557
- "epoch": 0.06,
558
- "learning_rate": 0.0023606060606060604,
559
- "loss": 4.6844,
560
  "step": 920
561
  },
562
  {
563
- "epoch": 0.06,
564
- "learning_rate": 0.002359090909090909,
565
- "loss": 4.3967,
566
  "step": 930
567
  },
568
  {
569
- "epoch": 0.06,
570
- "learning_rate": 0.0023575757575757575,
571
- "loss": 4.3477,
572
  "step": 940
573
  },
574
  {
575
- "epoch": 0.06,
576
- "learning_rate": 0.002356060606060606,
577
- "loss": 4.3279,
578
  "step": 950
579
  },
580
  {
581
- "epoch": 0.06,
582
- "learning_rate": 0.0023545454545454546,
583
- "loss": 4.6373,
584
  "step": 960
585
  },
586
  {
587
- "epoch": 0.06,
588
- "learning_rate": 0.002353030303030303,
589
- "loss": 4.1047,
590
  "step": 970
591
  },
592
  {
593
- "epoch": 0.06,
594
- "learning_rate": 0.0023515151515151513,
595
- "loss": 4.2828,
596
  "step": 980
597
  },
598
  {
599
- "epoch": 0.06,
600
- "learning_rate": 0.00235,
601
- "loss": 4.559,
602
  "step": 990
603
  },
604
  {
605
- "epoch": 0.06,
606
- "learning_rate": 0.002348484848484849,
607
- "loss": 4.6342,
608
  "step": 1000
609
  },
610
  {
611
- "epoch": 0.06,
612
- "learning_rate": 0.002346969696969697,
613
- "loss": 4.5187,
614
  "step": 1010
615
  },
616
  {
617
- "epoch": 0.06,
618
- "learning_rate": 0.0023454545454545455,
619
- "loss": 4.242,
620
  "step": 1020
621
  },
622
  {
623
- "epoch": 0.06,
624
- "learning_rate": 0.0023439393939393943,
625
- "loss": 4.442,
626
  "step": 1030
627
  },
628
  {
629
- "epoch": 0.06,
630
- "learning_rate": 0.0023424242424242426,
631
- "loss": 4.3424,
632
  "step": 1040
633
  },
634
  {
635
- "epoch": 0.06,
636
- "learning_rate": 0.002340909090909091,
637
- "loss": 4.191,
638
  "step": 1050
639
  },
640
  {
641
- "epoch": 0.06,
642
- "learning_rate": 0.0023393939393939393,
643
- "loss": 4.4494,
644
  "step": 1060
645
  },
646
  {
647
- "epoch": 0.07,
648
- "learning_rate": 0.002337878787878788,
649
- "loss": 4.3324,
650
  "step": 1070
651
  },
652
  {
653
- "epoch": 0.07,
654
- "learning_rate": 0.0023363636363636364,
655
- "loss": 4.1201,
656
  "step": 1080
657
  },
658
  {
659
- "epoch": 0.07,
660
- "learning_rate": 0.0023348484848484848,
661
- "loss": 4.2084,
662
  "step": 1090
663
  },
664
  {
665
- "epoch": 0.07,
666
- "learning_rate": 0.0023333333333333335,
667
- "loss": 4.3176,
668
  "step": 1100
669
  },
670
  {
671
- "epoch": 0.07,
672
- "learning_rate": 0.002331818181818182,
673
- "loss": 4.4791,
674
  "step": 1110
675
  },
676
  {
677
- "epoch": 0.07,
678
- "learning_rate": 0.00233030303030303,
679
- "loss": 3.9592,
680
  "step": 1120
681
  },
682
  {
683
- "epoch": 0.07,
684
- "learning_rate": 0.002328787878787879,
685
- "loss": 4.3406,
686
  "step": 1130
687
  },
688
  {
689
- "epoch": 0.07,
690
- "learning_rate": 0.0023272727272727273,
691
- "loss": 4.1566,
692
  "step": 1140
693
  },
694
  {
695
- "epoch": 0.07,
696
- "learning_rate": 0.0023257575757575756,
697
- "loss": 4.4951,
698
  "step": 1150
699
  },
700
  {
701
- "epoch": 0.07,
702
- "learning_rate": 0.0023242424242424244,
703
- "loss": 3.873,
704
  "step": 1160
705
  },
706
  {
707
- "epoch": 0.07,
708
- "learning_rate": 0.0023227272727272727,
709
- "loss": 4.4193,
710
  "step": 1170
711
  },
712
  {
713
- "epoch": 0.07,
714
- "learning_rate": 0.002321212121212121,
715
- "loss": 4.2574,
716
  "step": 1180
717
  },
718
  {
719
- "epoch": 0.07,
720
- "learning_rate": 0.00231969696969697,
721
- "loss": 4.7572,
722
  "step": 1190
723
  },
724
  {
725
- "epoch": 0.07,
726
- "learning_rate": 0.002318181818181818,
727
- "loss": 4.3244,
728
  "step": 1200
729
  },
730
  {
731
- "epoch": 0.07,
732
- "learning_rate": 0.0023166666666666665,
733
- "loss": 4.2613,
734
  "step": 1210
735
  },
736
  {
737
- "epoch": 0.07,
738
- "learning_rate": 0.0023151515151515153,
739
- "loss": 4.5949,
740
  "step": 1220
741
  },
742
  {
743
- "epoch": 0.08,
744
- "learning_rate": 0.0023136363636363636,
745
- "loss": 4.1111,
746
  "step": 1230
747
  },
748
  {
749
- "epoch": 0.08,
750
- "learning_rate": 0.002312121212121212,
751
- "loss": 4.3355,
752
  "step": 1240
753
  },
754
  {
755
- "epoch": 0.08,
756
- "learning_rate": 0.0023106060606060607,
757
- "loss": 4.5539,
758
  "step": 1250
759
  },
760
  {
761
- "epoch": 0.08,
762
- "learning_rate": 0.002309090909090909,
763
- "loss": 4.221,
764
  "step": 1260
765
  },
766
  {
767
- "epoch": 0.08,
768
- "learning_rate": 0.0023075757575757574,
769
- "loss": 4.0617,
770
  "step": 1270
771
  },
772
  {
773
- "epoch": 0.08,
774
- "learning_rate": 0.002306060606060606,
775
- "loss": 4.2396,
776
  "step": 1280
777
  },
778
  {
779
- "epoch": 0.08,
780
- "learning_rate": 0.0023045454545454545,
781
- "loss": 4.6004,
782
  "step": 1290
783
  },
784
  {
785
- "epoch": 0.08,
786
- "learning_rate": 0.0023030303030303033,
787
- "loss": 4.533,
788
  "step": 1300
789
  },
790
  {
791
- "epoch": 0.08,
792
- "learning_rate": 0.0023015151515151516,
793
- "loss": 4.3018,
794
  "step": 1310
795
  },
796
  {
797
- "epoch": 0.08,
798
- "learning_rate": 0.0023,
799
- "loss": 3.9908,
800
  "step": 1320
801
  },
802
  {
803
- "epoch": 0.08,
804
- "learning_rate": 0.0022984848484848487,
805
- "loss": 4.4869,
806
  "step": 1330
807
  },
808
  {
809
- "epoch": 0.08,
810
- "learning_rate": 0.002296969696969697,
811
- "loss": 4.1631,
812
  "step": 1340
813
  },
814
  {
815
- "epoch": 0.08,
816
- "learning_rate": 0.0022954545454545454,
817
- "loss": 4.3191,
818
  "step": 1350
819
  },
820
  {
821
- "epoch": 0.08,
822
- "learning_rate": 0.002293939393939394,
823
- "loss": 4.4717,
824
  "step": 1360
825
  },
826
  {
827
- "epoch": 0.08,
828
- "learning_rate": 0.0022924242424242425,
829
- "loss": 4.0645,
830
  "step": 1370
831
  },
832
  {
833
- "epoch": 0.08,
834
- "learning_rate": 0.002290909090909091,
835
- "loss": 4.2992,
836
  "step": 1380
837
  },
838
  {
839
- "epoch": 0.08,
840
- "learning_rate": 0.0022893939393939396,
841
- "loss": 4.2506,
842
  "step": 1390
843
  },
844
  {
845
- "epoch": 0.09,
846
- "learning_rate": 0.002287878787878788,
847
- "loss": 4.1289,
848
  "step": 1400
849
  },
850
  {
851
- "epoch": 0.09,
852
- "learning_rate": 0.0022863636363636363,
853
- "loss": 4.5553,
854
  "step": 1410
855
  },
856
  {
857
- "epoch": 0.09,
858
- "learning_rate": 0.002284848484848485,
859
- "loss": 4.1268,
860
  "step": 1420
861
  },
862
  {
863
- "epoch": 0.09,
864
- "learning_rate": 0.0022833333333333334,
865
- "loss": 4.3211,
866
  "step": 1430
867
  },
868
  {
869
- "epoch": 0.09,
870
- "learning_rate": 0.0022818181818181817,
871
- "loss": 3.8847,
872
  "step": 1440
873
  },
874
  {
875
- "epoch": 0.09,
876
- "learning_rate": 0.0022803030303030305,
877
- "loss": 3.9451,
878
  "step": 1450
879
  },
880
  {
881
- "epoch": 0.09,
882
- "learning_rate": 0.002278787878787879,
883
- "loss": 3.6887,
884
  "step": 1460
885
  },
886
  {
887
- "epoch": 0.09,
888
- "learning_rate": 0.002277272727272727,
889
- "loss": 4.0348,
890
  "step": 1470
891
  },
892
  {
893
- "epoch": 0.09,
894
- "learning_rate": 0.002275757575757576,
895
- "loss": 4.1012,
896
  "step": 1480
897
  },
898
  {
899
- "epoch": 0.09,
900
- "learning_rate": 0.0022742424242424243,
901
- "loss": 4.2861,
902
  "step": 1490
903
  },
904
  {
905
- "epoch": 0.09,
906
- "learning_rate": 0.0022727272727272726,
907
- "loss": 4.2572,
908
  "step": 1500
909
  },
910
  {
911
- "epoch": 0.09,
912
- "learning_rate": 0.0022712121212121214,
913
- "loss": 4.5604,
914
  "step": 1510
915
  },
916
  {
917
- "epoch": 0.09,
918
- "learning_rate": 0.0022696969696969697,
919
- "loss": 4.2148,
920
  "step": 1520
921
  },
922
  {
923
- "epoch": 0.09,
924
- "learning_rate": 0.002268181818181818,
925
- "loss": 4.3568,
926
  "step": 1530
927
  },
928
  {
929
- "epoch": 0.09,
930
- "learning_rate": 0.0022666666666666664,
931
- "loss": 4.293,
932
  "step": 1540
933
  },
934
  {
935
- "epoch": 0.09,
936
- "learning_rate": 0.002265151515151515,
937
- "loss": 4.658,
938
  "step": 1550
939
  },
940
  {
941
- "epoch": 0.1,
942
- "learning_rate": 0.0022636363636363635,
943
- "loss": 4.4127,
944
  "step": 1560
945
  },
946
  {
947
- "epoch": 0.1,
948
- "learning_rate": 0.0022621212121212123,
949
- "loss": 4.3584,
950
  "step": 1570
951
  },
952
  {
953
- "epoch": 0.1,
954
- "learning_rate": 0.0022606060606060606,
955
- "loss": 4.3832,
956
  "step": 1580
957
  },
958
  {
959
- "epoch": 0.1,
960
- "learning_rate": 0.0022590909090909094,
961
- "loss": 4.1822,
962
  "step": 1590
963
  },
964
  {
965
- "epoch": 0.1,
966
- "learning_rate": 0.0022575757575757577,
967
- "loss": 4.4045,
968
  "step": 1600
969
  },
970
  {
971
- "epoch": 0.1,
972
- "learning_rate": 0.002256060606060606,
973
- "loss": 4.4514,
974
  "step": 1610
975
  },
976
  {
977
- "epoch": 0.1,
978
- "learning_rate": 0.002254545454545455,
979
- "loss": 3.8766,
980
  "step": 1620
981
  },
982
  {
983
- "epoch": 0.1,
984
- "learning_rate": 0.002253030303030303,
985
- "loss": 4.6047,
986
  "step": 1630
987
  },
988
  {
989
- "epoch": 0.1,
990
- "learning_rate": 0.0022515151515151515,
991
- "loss": 4.1969,
992
  "step": 1640
993
  },
994
  {
995
- "epoch": 0.1,
996
- "learning_rate": 0.0022500000000000003,
997
- "loss": 4.1688,
998
  "step": 1650
999
  },
1000
  {
1001
- "epoch": 0.1,
1002
- "learning_rate": 0.0022484848484848486,
1003
- "loss": 4.5,
1004
  "step": 1660
1005
  },
1006
  {
1007
- "epoch": 0.1,
1008
- "learning_rate": 0.002246969696969697,
1009
- "loss": 4.1338,
1010
  "step": 1670
1011
  },
1012
  {
1013
- "epoch": 0.1,
1014
- "learning_rate": 0.0022454545454545457,
1015
- "loss": 4.4885,
1016
  "step": 1680
1017
  },
1018
  {
1019
- "epoch": 0.1,
1020
- "learning_rate": 0.002243939393939394,
1021
- "loss": 3.8264,
1022
  "step": 1690
1023
  },
1024
  {
1025
- "epoch": 0.1,
1026
- "learning_rate": 0.0022424242424242424,
1027
- "loss": 4.1896,
1028
  "step": 1700
1029
  },
1030
  {
1031
- "epoch": 0.1,
1032
- "learning_rate": 0.002240909090909091,
1033
- "loss": 4.1893,
1034
  "step": 1710
1035
  },
1036
  {
1037
- "epoch": 0.1,
1038
- "learning_rate": 0.0022393939393939395,
1039
- "loss": 4.3912,
1040
  "step": 1720
1041
  },
1042
  {
1043
- "epoch": 0.11,
1044
- "learning_rate": 0.002237878787878788,
1045
- "loss": 4.2867,
1046
  "step": 1730
1047
  },
1048
  {
1049
- "epoch": 0.11,
1050
- "learning_rate": 0.0022363636363636366,
1051
- "loss": 4.3912,
1052
  "step": 1740
1053
  },
1054
  {
1055
- "epoch": 0.11,
1056
- "learning_rate": 0.002234848484848485,
1057
- "loss": 4.1045,
1058
  "step": 1750
1059
  },
1060
  {
1061
- "epoch": 0.11,
1062
- "learning_rate": 0.0022333333333333333,
1063
- "loss": 4.1043,
1064
  "step": 1760
1065
  },
1066
  {
1067
- "epoch": 0.11,
1068
- "learning_rate": 0.0022318181818181816,
1069
- "loss": 4.2686,
1070
  "step": 1770
1071
  },
1072
  {
1073
- "epoch": 0.11,
1074
- "learning_rate": 0.0022303030303030304,
1075
- "loss": 4.4639,
1076
  "step": 1780
1077
  },
1078
  {
1079
- "epoch": 0.11,
1080
- "learning_rate": 0.0022287878787878787,
1081
- "loss": 4.0201,
1082
  "step": 1790
1083
  },
1084
  {
1085
- "epoch": 0.11,
1086
- "learning_rate": 0.002227272727272727,
1087
- "loss": 4.0189,
1088
  "step": 1800
1089
  },
1090
  {
1091
- "epoch": 0.11,
1092
- "learning_rate": 0.002225757575757576,
1093
- "loss": 4.0787,
1094
  "step": 1810
1095
  },
1096
  {
1097
- "epoch": 0.11,
1098
- "learning_rate": 0.002224242424242424,
1099
- "loss": 3.8324,
1100
  "step": 1820
1101
  },
1102
  {
1103
- "epoch": 0.11,
1104
- "learning_rate": 0.0022227272727272725,
1105
- "loss": 4.4113,
1106
  "step": 1830
1107
  },
1108
  {
1109
- "epoch": 0.11,
1110
- "learning_rate": 0.0022212121212121213,
1111
- "loss": 4.117,
1112
  "step": 1840
1113
  },
1114
  {
1115
- "epoch": 0.11,
1116
- "learning_rate": 0.00221969696969697,
1117
- "loss": 4.1695,
1118
  "step": 1850
1119
  },
1120
  {
1121
- "epoch": 0.11,
1122
- "learning_rate": 0.0022181818181818184,
1123
- "loss": 4.2963,
1124
  "step": 1860
1125
  },
1126
  {
1127
- "epoch": 0.11,
1128
- "learning_rate": 0.0022166666666666667,
1129
- "loss": 4.4145,
1130
  "step": 1870
1131
  },
1132
  {
1133
- "epoch": 0.11,
1134
- "learning_rate": 0.0022151515151515155,
1135
- "loss": 4.076,
1136
  "step": 1880
1137
  },
1138
  {
1139
- "epoch": 0.12,
1140
- "learning_rate": 0.002213636363636364,
1141
- "loss": 4.3945,
1142
  "step": 1890
1143
  },
1144
  {
1145
- "epoch": 0.12,
1146
- "learning_rate": 0.002212121212121212,
1147
- "loss": 4.042,
1148
  "step": 1900
1149
  },
1150
  {
1151
- "epoch": 0.12,
1152
- "learning_rate": 0.002210606060606061,
1153
- "loss": 3.8959,
1154
  "step": 1910
1155
  },
1156
  {
1157
- "epoch": 0.12,
1158
- "learning_rate": 0.0022090909090909092,
1159
- "loss": 3.8939,
1160
  "step": 1920
1161
  },
1162
  {
1163
- "epoch": 0.12,
1164
- "learning_rate": 0.0022075757575757576,
1165
- "loss": 4.3057,
1166
  "step": 1930
1167
  },
1168
  {
1169
- "epoch": 0.12,
1170
- "learning_rate": 0.0022060606060606064,
1171
- "loss": 4.5699,
1172
  "step": 1940
1173
  },
1174
  {
1175
- "epoch": 0.12,
1176
- "learning_rate": 0.0022045454545454547,
1177
- "loss": 3.8951,
1178
  "step": 1950
1179
  },
1180
  {
1181
- "epoch": 0.12,
1182
- "learning_rate": 0.002203030303030303,
1183
- "loss": 4.041,
1184
  "step": 1960
1185
  },
1186
  {
1187
- "epoch": 0.12,
1188
- "learning_rate": 0.002201515151515152,
1189
- "loss": 4.4762,
1190
  "step": 1970
1191
  },
1192
  {
1193
- "epoch": 0.12,
1194
- "learning_rate": 0.0022,
1195
- "loss": 4.225,
1196
  "step": 1980
1197
  },
1198
  {
1199
- "epoch": 0.12,
1200
- "learning_rate": 0.0021984848484848485,
1201
- "loss": 4.4705,
1202
  "step": 1990
1203
  },
1204
  {
1205
- "epoch": 0.12,
1206
- "learning_rate": 0.002196969696969697,
1207
- "loss": 4.2803,
1208
  "step": 2000
1209
  },
1210
  {
1211
- "epoch": 0.12,
1212
- "learning_rate": 0.0021954545454545456,
1213
- "loss": 4.0248,
1214
  "step": 2010
1215
  },
1216
  {
1217
- "epoch": 0.12,
1218
- "learning_rate": 0.002193939393939394,
1219
- "loss": 4.09,
1220
  "step": 2020
1221
  },
1222
  {
1223
- "epoch": 0.12,
1224
- "learning_rate": 0.0021924242424242422,
1225
- "loss": 4.2914,
1226
  "step": 2030
1227
  },
1228
  {
1229
- "epoch": 0.12,
1230
- "learning_rate": 0.002190909090909091,
1231
- "loss": 4.1557,
1232
  "step": 2040
1233
  },
1234
  {
1235
- "epoch": 0.13,
1236
- "learning_rate": 0.0021893939393939394,
1237
- "loss": 4.041,
1238
  "step": 2050
1239
  },
1240
  {
1241
- "epoch": 0.13,
1242
- "learning_rate": 0.0021878787878787877,
1243
- "loss": 4.6293,
1244
  "step": 2060
1245
  },
1246
  {
1247
- "epoch": 0.13,
1248
- "learning_rate": 0.0021863636363636365,
1249
- "loss": 4.2543,
1250
  "step": 2070
1251
  },
1252
  {
1253
- "epoch": 0.13,
1254
- "learning_rate": 0.002184848484848485,
1255
- "loss": 4.3525,
1256
  "step": 2080
1257
  },
1258
  {
1259
- "epoch": 0.13,
1260
- "learning_rate": 0.002183333333333333,
1261
- "loss": 4.2623,
1262
  "step": 2090
1263
  },
1264
  {
1265
- "epoch": 0.13,
1266
- "learning_rate": 0.002181818181818182,
1267
- "loss": 4.3332,
1268
  "step": 2100
1269
  },
1270
  {
1271
- "epoch": 0.13,
1272
- "learning_rate": 0.0021803030303030302,
1273
- "loss": 4.4281,
1274
  "step": 2110
1275
  },
1276
  {
1277
- "epoch": 0.13,
1278
- "learning_rate": 0.0021787878787878786,
1279
- "loss": 4.3771,
1280
  "step": 2120
1281
  },
1282
  {
1283
- "epoch": 0.13,
1284
- "learning_rate": 0.0021772727272727273,
1285
- "loss": 4.4289,
1286
  "step": 2130
1287
  },
1288
  {
1289
- "epoch": 0.13,
1290
- "learning_rate": 0.002175757575757576,
1291
- "loss": 3.9854,
1292
  "step": 2140
1293
  },
1294
  {
1295
- "epoch": 0.13,
1296
- "learning_rate": 0.0021742424242424245,
1297
- "loss": 4.7166,
1298
  "step": 2150
1299
  },
1300
  {
1301
- "epoch": 0.13,
1302
- "learning_rate": 0.002172727272727273,
1303
- "loss": 4.2908,
1304
  "step": 2160
1305
  },
1306
  {
1307
- "epoch": 0.13,
1308
- "learning_rate": 0.0021712121212121216,
1309
- "loss": 4.5039,
1310
  "step": 2170
1311
  },
1312
  {
1313
- "epoch": 0.13,
1314
- "learning_rate": 0.00216969696969697,
1315
- "loss": 4.2756,
1316
  "step": 2180
1317
  },
1318
  {
1319
- "epoch": 0.13,
1320
- "learning_rate": 0.0021681818181818182,
1321
- "loss": 4.1209,
1322
  "step": 2190
1323
  },
1324
  {
1325
- "epoch": 0.13,
1326
- "learning_rate": 0.002166666666666667,
1327
- "loss": 3.9537,
1328
  "step": 2200
1329
  },
1330
  {
1331
- "epoch": 0.13,
1332
- "learning_rate": 0.0021651515151515153,
1333
- "loss": 4.2012,
1334
  "step": 2210
1335
  },
1336
  {
1337
- "epoch": 0.14,
1338
- "learning_rate": 0.0021636363636363637,
1339
- "loss": 4.1775,
1340
  "step": 2220
1341
  },
1342
  {
1343
- "epoch": 0.14,
1344
- "learning_rate": 0.002162121212121212,
1345
- "loss": 4.1004,
1346
  "step": 2230
1347
  },
1348
  {
1349
- "epoch": 0.14,
1350
- "learning_rate": 0.0021606060606060608,
1351
- "loss": 4.5125,
1352
  "step": 2240
1353
  },
1354
  {
1355
- "epoch": 0.14,
1356
- "learning_rate": 0.002159090909090909,
1357
- "loss": 4.1016,
1358
  "step": 2250
1359
  },
1360
  {
1361
- "epoch": 0.14,
1362
- "learning_rate": 0.0021575757575757575,
1363
- "loss": 4.1955,
1364
  "step": 2260
1365
  },
1366
  {
1367
- "epoch": 0.14,
1368
- "learning_rate": 0.0021560606060606062,
1369
- "loss": 4.3717,
1370
  "step": 2270
1371
  },
1372
  {
1373
- "epoch": 0.14,
1374
- "learning_rate": 0.0021545454545454546,
1375
- "loss": 4.6578,
1376
  "step": 2280
1377
  },
1378
  {
1379
- "epoch": 0.14,
1380
- "learning_rate": 0.002153030303030303,
1381
- "loss": 4.5115,
1382
  "step": 2290
1383
  },
1384
  {
1385
- "epoch": 0.14,
1386
- "learning_rate": 0.0021515151515151517,
1387
- "loss": 4.4395,
1388
  "step": 2300
1389
  },
1390
  {
1391
- "epoch": 0.14,
1392
- "learning_rate": 0.00215,
1393
- "loss": 4.1674,
1394
  "step": 2310
1395
  },
1396
  {
1397
- "epoch": 0.14,
1398
- "learning_rate": 0.0021484848484848483,
1399
- "loss": 4.1488,
1400
  "step": 2320
1401
  },
1402
  {
1403
- "epoch": 0.14,
1404
- "learning_rate": 0.002146969696969697,
1405
- "loss": 4.0652,
1406
  "step": 2330
1407
  },
1408
  {
1409
- "epoch": 0.14,
1410
- "learning_rate": 0.0021454545454545454,
1411
- "loss": 4.2736,
1412
  "step": 2340
1413
  },
1414
  {
1415
- "epoch": 0.14,
1416
- "learning_rate": 0.0021439393939393938,
1417
- "loss": 4.2018,
1418
  "step": 2350
1419
  },
1420
  {
1421
- "epoch": 0.14,
1422
- "learning_rate": 0.0021424242424242426,
1423
- "loss": 4.3178,
1424
  "step": 2360
1425
  },
1426
  {
1427
- "epoch": 0.14,
1428
- "learning_rate": 0.002140909090909091,
1429
- "loss": 4.5182,
1430
  "step": 2370
1431
  },
1432
  {
1433
- "epoch": 0.15,
1434
- "learning_rate": 0.0021393939393939392,
1435
- "loss": 4.4102,
1436
  "step": 2380
1437
  },
1438
  {
1439
- "epoch": 0.15,
1440
- "learning_rate": 0.002137878787878788,
1441
- "loss": 4.392,
1442
  "step": 2390
1443
  },
1444
  {
1445
- "epoch": 0.15,
1446
- "learning_rate": 0.0021363636363636363,
1447
- "loss": 4.2674,
1448
  "step": 2400
1449
  },
1450
  {
1451
- "epoch": 0.15,
1452
- "learning_rate": 0.0021348484848484847,
1453
- "loss": 3.9971,
1454
  "step": 2410
1455
  },
1456
  {
1457
- "epoch": 0.15,
1458
- "learning_rate": 0.0021333333333333334,
1459
- "loss": 4.4205,
1460
  "step": 2420
1461
  },
1462
  {
1463
- "epoch": 0.15,
1464
- "learning_rate": 0.002131818181818182,
1465
- "loss": 4.0297,
1466
  "step": 2430
1467
  },
1468
  {
1469
- "epoch": 0.15,
1470
- "learning_rate": 0.0021303030303030305,
1471
- "loss": 4.0076,
1472
  "step": 2440
1473
  },
1474
  {
1475
- "epoch": 0.15,
1476
- "learning_rate": 0.002128787878787879,
1477
- "loss": 4.1734,
1478
  "step": 2450
1479
  },
1480
  {
1481
- "epoch": 0.15,
1482
- "learning_rate": 0.002127272727272727,
1483
- "loss": 4.0545,
1484
  "step": 2460
1485
  },
1486
  {
1487
- "epoch": 0.15,
1488
- "learning_rate": 0.002125757575757576,
1489
- "loss": 3.9951,
1490
  "step": 2470
1491
  },
1492
  {
1493
- "epoch": 0.15,
1494
- "learning_rate": 0.0021242424242424243,
1495
- "loss": 4.2332,
1496
  "step": 2480
1497
  },
1498
  {
1499
- "epoch": 0.15,
1500
- "learning_rate": 0.0021227272727272727,
1501
- "loss": 3.9803,
1502
  "step": 2490
1503
  },
1504
  {
1505
- "epoch": 0.15,
1506
- "learning_rate": 0.0021212121212121214,
1507
- "loss": 4.5166,
1508
  "step": 2500
1509
  },
1510
  {
1511
- "epoch": 0.15,
1512
- "learning_rate": 0.0021196969696969698,
1513
- "loss": 4.1238,
1514
  "step": 2510
1515
  },
1516
  {
1517
- "epoch": 0.15,
1518
- "learning_rate": 0.002118181818181818,
1519
- "loss": 3.9596,
1520
  "step": 2520
1521
  },
1522
  {
1523
- "epoch": 0.15,
1524
- "learning_rate": 0.002116666666666667,
1525
- "loss": 4.0205,
1526
  "step": 2530
1527
  },
1528
  {
1529
- "epoch": 0.15,
1530
- "learning_rate": 0.002115151515151515,
1531
- "loss": 4.4902,
1532
  "step": 2540
1533
  },
1534
  {
1535
- "epoch": 0.16,
1536
- "learning_rate": 0.0021136363636363635,
1537
- "loss": 4.3045,
1538
  "step": 2550
1539
  },
1540
  {
1541
- "epoch": 0.16,
1542
- "learning_rate": 0.0021121212121212123,
1543
- "loss": 3.9855,
1544
  "step": 2560
1545
  },
1546
  {
1547
- "epoch": 0.16,
1548
- "learning_rate": 0.0021106060606060606,
1549
- "loss": 4.216,
1550
  "step": 2570
1551
  },
1552
  {
1553
- "epoch": 0.16,
1554
- "learning_rate": 0.002109090909090909,
1555
- "loss": 4.4146,
1556
  "step": 2580
1557
  },
1558
  {
1559
- "epoch": 0.16,
1560
- "learning_rate": 0.0021075757575757578,
1561
- "loss": 3.9723,
1562
  "step": 2590
1563
  },
1564
  {
1565
- "epoch": 0.16,
1566
- "learning_rate": 0.002106060606060606,
1567
- "loss": 4.2469,
1568
  "step": 2600
1569
  },
1570
  {
1571
- "epoch": 0.16,
1572
- "learning_rate": 0.0021045454545454544,
1573
- "loss": 3.9295,
1574
  "step": 2610
1575
  },
1576
  {
1577
- "epoch": 0.16,
1578
- "learning_rate": 0.002103030303030303,
1579
- "loss": 4.2799,
1580
  "step": 2620
1581
  },
1582
  {
1583
- "epoch": 0.16,
1584
- "learning_rate": 0.0021015151515151515,
1585
- "loss": 4.1453,
1586
  "step": 2630
1587
  },
1588
  {
1589
- "epoch": 0.16,
1590
- "learning_rate": 0.0021,
1591
- "loss": 4.1547,
1592
  "step": 2640
1593
  },
1594
  {
1595
- "epoch": 0.16,
1596
- "learning_rate": 0.0020984848484848486,
1597
- "loss": 4.2727,
1598
  "step": 2650
1599
  },
1600
  {
1601
- "epoch": 0.16,
1602
- "learning_rate": 0.002096969696969697,
1603
- "loss": 4.1533,
1604
  "step": 2660
1605
  },
1606
  {
1607
- "epoch": 0.16,
1608
- "learning_rate": 0.0020954545454545453,
1609
- "loss": 3.9719,
1610
  "step": 2670
1611
  },
1612
  {
1613
- "epoch": 0.16,
1614
- "learning_rate": 0.002093939393939394,
1615
- "loss": 4.3705,
1616
  "step": 2680
1617
  },
1618
  {
1619
- "epoch": 0.16,
1620
- "learning_rate": 0.0020924242424242424,
1621
- "loss": 3.7813,
1622
  "step": 2690
1623
  },
1624
  {
1625
- "epoch": 0.16,
1626
- "learning_rate": 0.0020909090909090908,
1627
- "loss": 4.1619,
1628
  "step": 2700
1629
  },
1630
  {
1631
- "epoch": 0.17,
1632
- "learning_rate": 0.0020893939393939395,
1633
- "loss": 3.8096,
1634
  "step": 2710
1635
  },
1636
  {
1637
- "epoch": 0.17,
1638
- "learning_rate": 0.002087878787878788,
1639
- "loss": 4.2779,
1640
  "step": 2720
1641
  },
1642
  {
1643
- "epoch": 0.17,
1644
- "learning_rate": 0.0020863636363636366,
1645
- "loss": 4.152,
1646
  "step": 2730
1647
  },
1648
  {
1649
- "epoch": 0.17,
1650
- "learning_rate": 0.002084848484848485,
1651
- "loss": 4.6047,
1652
  "step": 2740
1653
  },
1654
  {
1655
- "epoch": 0.17,
1656
- "learning_rate": 0.0020833333333333333,
1657
- "loss": 3.9848,
1658
  "step": 2750
1659
  },
1660
  {
1661
- "epoch": 0.17,
1662
- "learning_rate": 0.002081818181818182,
1663
- "loss": 4.068,
1664
  "step": 2760
1665
  },
1666
  {
1667
- "epoch": 0.17,
1668
- "learning_rate": 0.0020803030303030304,
1669
- "loss": 4.0783,
1670
  "step": 2770
1671
  },
1672
  {
1673
- "epoch": 0.17,
1674
- "learning_rate": 0.0020787878787878787,
1675
- "loss": 3.8646,
1676
  "step": 2780
1677
  },
1678
  {
1679
- "epoch": 0.17,
1680
- "learning_rate": 0.0020772727272727275,
1681
- "loss": 4.4756,
1682
  "step": 2790
1683
  },
1684
  {
1685
- "epoch": 0.17,
1686
- "learning_rate": 0.002075757575757576,
1687
- "loss": 4.0518,
1688
  "step": 2800
1689
  },
1690
  {
1691
- "epoch": 0.17,
1692
- "learning_rate": 0.002074242424242424,
1693
- "loss": 4.1688,
1694
  "step": 2810
1695
  },
1696
  {
1697
- "epoch": 0.17,
1698
- "learning_rate": 0.002072727272727273,
1699
- "loss": 4.3254,
1700
  "step": 2820
1701
  },
1702
  {
1703
- "epoch": 0.17,
1704
- "learning_rate": 0.0020712121212121213,
1705
- "loss": 4.3361,
1706
  "step": 2830
1707
  },
1708
  {
1709
- "epoch": 0.17,
1710
- "learning_rate": 0.0020696969696969696,
1711
- "loss": 4.5381,
1712
  "step": 2840
1713
  },
1714
  {
1715
- "epoch": 0.17,
1716
- "learning_rate": 0.0020681818181818184,
1717
- "loss": 4.1404,
1718
  "step": 2850
1719
  },
1720
  {
1721
- "epoch": 0.17,
1722
- "learning_rate": 0.0020666666666666667,
1723
- "loss": 4.3307,
1724
  "step": 2860
1725
  },
1726
  {
1727
- "epoch": 0.18,
1728
- "learning_rate": 0.002065151515151515,
1729
- "loss": 4.2369,
1730
  "step": 2870
1731
  },
1732
  {
1733
- "epoch": 0.18,
1734
- "learning_rate": 0.002063636363636364,
1735
- "loss": 3.973,
1736
  "step": 2880
1737
  },
1738
  {
1739
- "epoch": 0.18,
1740
- "learning_rate": 0.002062121212121212,
1741
- "loss": 4.0045,
1742
  "step": 2890
1743
  },
1744
  {
1745
- "epoch": 0.18,
1746
- "learning_rate": 0.0020606060606060605,
1747
- "loss": 3.717,
1748
  "step": 2900
1749
  },
1750
  {
1751
- "epoch": 0.18,
1752
- "learning_rate": 0.002059090909090909,
1753
- "loss": 4.3682,
1754
  "step": 2910
1755
  },
1756
  {
1757
- "epoch": 0.18,
1758
- "learning_rate": 0.0020575757575757576,
1759
- "loss": 4.2744,
1760
  "step": 2920
1761
  },
1762
  {
1763
- "epoch": 0.18,
1764
- "learning_rate": 0.002056060606060606,
1765
- "loss": 4.0842,
1766
  "step": 2930
1767
  },
1768
  {
1769
- "epoch": 0.18,
1770
- "learning_rate": 0.0020545454545454543,
1771
- "loss": 4.4441,
1772
  "step": 2940
1773
  },
1774
  {
1775
- "epoch": 0.18,
1776
- "learning_rate": 0.002053030303030303,
1777
- "loss": 3.993,
1778
  "step": 2950
1779
  },
1780
  {
1781
- "epoch": 0.18,
1782
- "learning_rate": 0.0020515151515151514,
1783
- "loss": 3.9664,
1784
  "step": 2960
1785
  },
1786
  {
1787
- "epoch": 0.18,
1788
- "learning_rate": 0.0020499999999999997,
1789
- "loss": 4.2275,
1790
  "step": 2970
1791
  },
1792
  {
1793
- "epoch": 0.18,
1794
- "learning_rate": 0.0020484848484848485,
1795
- "loss": 3.7014,
1796
  "step": 2980
1797
  },
1798
  {
1799
- "epoch": 0.18,
1800
- "learning_rate": 0.0020469696969696973,
1801
- "loss": 3.8799,
1802
  "step": 2990
1803
  },
1804
  {
1805
- "epoch": 0.18,
1806
- "learning_rate": 0.0020454545454545456,
1807
- "loss": 3.9643,
1808
  "step": 3000
1809
- },
1810
- {
1811
- "epoch": 0.18,
1812
- "learning_rate": 0.002043939393939394,
1813
- "loss": 4.0553,
1814
- "step": 3010
1815
- },
1816
- {
1817
- "epoch": 0.18,
1818
- "learning_rate": 0.0020424242424242427,
1819
- "loss": 4.0256,
1820
- "step": 3020
1821
- },
1822
- {
1823
- "epoch": 0.18,
1824
- "learning_rate": 0.002040909090909091,
1825
- "loss": 4.1273,
1826
- "step": 3030
1827
- },
1828
- {
1829
- "epoch": 0.19,
1830
- "learning_rate": 0.0020393939393939394,
1831
- "loss": 4.0736,
1832
- "step": 3040
1833
- },
1834
- {
1835
- "epoch": 0.19,
1836
- "learning_rate": 0.002037878787878788,
1837
- "loss": 4.1354,
1838
- "step": 3050
1839
- },
1840
- {
1841
- "epoch": 0.19,
1842
- "learning_rate": 0.0020363636363636365,
1843
- "loss": 4.2006,
1844
- "step": 3060
1845
- },
1846
- {
1847
- "epoch": 0.19,
1848
- "learning_rate": 0.002034848484848485,
1849
- "loss": 4.284,
1850
- "step": 3070
1851
- },
1852
- {
1853
- "epoch": 0.19,
1854
- "learning_rate": 0.0020333333333333336,
1855
- "loss": 4.191,
1856
- "step": 3080
1857
- },
1858
- {
1859
- "epoch": 0.19,
1860
- "learning_rate": 0.002031818181818182,
1861
- "loss": 4.3771,
1862
- "step": 3090
1863
- },
1864
- {
1865
- "epoch": 0.19,
1866
- "learning_rate": 0.0020303030303030303,
1867
- "loss": 3.9966,
1868
- "step": 3100
1869
- },
1870
- {
1871
- "epoch": 0.19,
1872
- "learning_rate": 0.002028787878787879,
1873
- "loss": 4.1867,
1874
- "step": 3110
1875
- },
1876
- {
1877
- "epoch": 0.19,
1878
- "learning_rate": 0.0020272727272727274,
1879
- "loss": 3.9691,
1880
- "step": 3120
1881
- },
1882
- {
1883
- "epoch": 0.19,
1884
- "learning_rate": 0.0020257575757575757,
1885
- "loss": 3.9979,
1886
- "step": 3130
1887
- },
1888
- {
1889
- "epoch": 0.19,
1890
- "learning_rate": 0.002024242424242424,
1891
- "loss": 4.3219,
1892
- "step": 3140
1893
- },
1894
- {
1895
- "epoch": 0.19,
1896
- "learning_rate": 0.002022727272727273,
1897
- "loss": 3.9918,
1898
- "step": 3150
1899
- },
1900
- {
1901
- "epoch": 0.19,
1902
- "learning_rate": 0.002021212121212121,
1903
- "loss": 4.3541,
1904
- "step": 3160
1905
- },
1906
- {
1907
- "epoch": 0.19,
1908
- "learning_rate": 0.0020196969696969695,
1909
- "loss": 4.2801,
1910
- "step": 3170
1911
- },
1912
- {
1913
- "epoch": 0.19,
1914
- "learning_rate": 0.0020181818181818183,
1915
- "loss": 3.8957,
1916
- "step": 3180
1917
- },
1918
- {
1919
- "epoch": 0.19,
1920
- "learning_rate": 0.0020166666666666666,
1921
- "loss": 4.8797,
1922
- "step": 3190
1923
- },
1924
- {
1925
- "epoch": 0.2,
1926
- "learning_rate": 0.002015151515151515,
1927
- "loss": 4.1672,
1928
- "step": 3200
1929
- },
1930
- {
1931
- "epoch": 0.2,
1932
- "learning_rate": 0.0020136363636363637,
1933
- "loss": 4.1686,
1934
- "step": 3210
1935
- },
1936
- {
1937
- "epoch": 0.2,
1938
- "learning_rate": 0.002012121212121212,
1939
- "loss": 4.3756,
1940
- "step": 3220
1941
- },
1942
- {
1943
- "epoch": 0.2,
1944
- "learning_rate": 0.0020106060606060604,
1945
- "loss": 4.307,
1946
- "step": 3230
1947
- },
1948
- {
1949
- "epoch": 0.2,
1950
- "learning_rate": 0.002009090909090909,
1951
- "loss": 4.0963,
1952
- "step": 3240
1953
- },
1954
- {
1955
- "epoch": 0.2,
1956
- "learning_rate": 0.0020075757575757575,
1957
- "loss": 3.9398,
1958
- "step": 3250
1959
- },
1960
- {
1961
- "epoch": 0.2,
1962
- "learning_rate": 0.002006060606060606,
1963
- "loss": 4.008,
1964
- "step": 3260
1965
- },
1966
- {
1967
- "epoch": 0.2,
1968
- "learning_rate": 0.0020045454545454546,
1969
- "loss": 3.7615,
1970
- "step": 3270
1971
- },
1972
- {
1973
- "epoch": 0.2,
1974
- "learning_rate": 0.0020030303030303034,
1975
- "loss": 4.1881,
1976
- "step": 3280
1977
- },
1978
- {
1979
- "epoch": 0.2,
1980
- "learning_rate": 0.0020015151515151517,
1981
- "loss": 3.8508,
1982
- "step": 3290
1983
- },
1984
- {
1985
- "epoch": 0.2,
1986
- "learning_rate": 0.002,
1987
- "loss": 4.3887,
1988
- "step": 3300
1989
- },
1990
- {
1991
- "epoch": 0.2,
1992
- "learning_rate": 0.001998484848484849,
1993
- "loss": 4.0209,
1994
- "step": 3310
1995
- },
1996
- {
1997
- "epoch": 0.2,
1998
- "learning_rate": 0.001996969696969697,
1999
- "loss": 4.1906,
2000
- "step": 3320
2001
- },
2002
- {
2003
- "epoch": 0.2,
2004
- "learning_rate": 0.0019954545454545455,
2005
- "loss": 4.1512,
2006
- "step": 3330
2007
- },
2008
- {
2009
- "epoch": 0.2,
2010
- "learning_rate": 0.0019939393939393943,
2011
- "loss": 4.2525,
2012
- "step": 3340
2013
- },
2014
- {
2015
- "epoch": 0.2,
2016
- "learning_rate": 0.0019924242424242426,
2017
- "loss": 4.3814,
2018
- "step": 3350
2019
- },
2020
- {
2021
- "epoch": 0.2,
2022
- "learning_rate": 0.001990909090909091,
2023
- "loss": 4.0068,
2024
- "step": 3360
2025
- },
2026
- {
2027
- "epoch": 0.21,
2028
- "learning_rate": 0.0019893939393939393,
2029
- "loss": 4.3184,
2030
- "step": 3370
2031
- },
2032
- {
2033
- "epoch": 0.21,
2034
- "learning_rate": 0.001987878787878788,
2035
- "loss": 4.4627,
2036
- "step": 3380
2037
- },
2038
- {
2039
- "epoch": 0.21,
2040
- "learning_rate": 0.0019863636363636364,
2041
- "loss": 4.1746,
2042
- "step": 3390
2043
- },
2044
- {
2045
- "epoch": 0.21,
2046
- "learning_rate": 0.0019848484848484847,
2047
- "loss": 3.9419,
2048
- "step": 3400
2049
- },
2050
- {
2051
- "epoch": 0.21,
2052
- "learning_rate": 0.0019833333333333335,
2053
- "loss": 4.0953,
2054
- "step": 3410
2055
- },
2056
- {
2057
- "epoch": 0.21,
2058
- "learning_rate": 0.001981818181818182,
2059
- "loss": 4.3074,
2060
- "step": 3420
2061
- },
2062
- {
2063
- "epoch": 0.21,
2064
- "learning_rate": 0.00198030303030303,
2065
- "loss": 4.2008,
2066
- "step": 3430
2067
- },
2068
- {
2069
- "epoch": 0.21,
2070
- "learning_rate": 0.001978787878787879,
2071
- "loss": 4.1914,
2072
- "step": 3440
2073
- },
2074
- {
2075
- "epoch": 0.21,
2076
- "learning_rate": 0.0019772727272727273,
2077
- "loss": 4.0264,
2078
- "step": 3450
2079
- },
2080
- {
2081
- "epoch": 0.21,
2082
- "learning_rate": 0.0019757575757575756,
2083
- "loss": 4.1937,
2084
- "step": 3460
2085
- },
2086
- {
2087
- "epoch": 0.21,
2088
- "learning_rate": 0.0019742424242424244,
2089
- "loss": 4.067,
2090
- "step": 3470
2091
- },
2092
- {
2093
- "epoch": 0.21,
2094
- "learning_rate": 0.0019727272727272727,
2095
- "loss": 4.2822,
2096
- "step": 3480
2097
- },
2098
- {
2099
- "epoch": 0.21,
2100
- "learning_rate": 0.001971212121212121,
2101
- "loss": 3.798,
2102
- "step": 3490
2103
- },
2104
- {
2105
- "epoch": 0.21,
2106
- "learning_rate": 0.00196969696969697,
2107
- "loss": 4.3059,
2108
- "step": 3500
2109
- },
2110
- {
2111
- "epoch": 0.21,
2112
- "learning_rate": 0.001968181818181818,
2113
- "loss": 3.8936,
2114
- "step": 3510
2115
- },
2116
- {
2117
- "epoch": 0.21,
2118
- "learning_rate": 0.0019666666666666665,
2119
- "loss": 4.3832,
2120
- "step": 3520
2121
- },
2122
- {
2123
- "epoch": 0.22,
2124
- "learning_rate": 0.0019651515151515152,
2125
- "loss": 4.3246,
2126
- "step": 3530
2127
- },
2128
- {
2129
- "epoch": 0.22,
2130
- "learning_rate": 0.0019636363636363636,
2131
- "loss": 4.0193,
2132
- "step": 3540
2133
- },
2134
- {
2135
- "epoch": 0.22,
2136
- "learning_rate": 0.001962121212121212,
2137
- "loss": 4.2828,
2138
- "step": 3550
2139
- },
2140
- {
2141
- "epoch": 0.22,
2142
- "learning_rate": 0.0019606060606060607,
2143
- "loss": 4.468,
2144
- "step": 3560
2145
- },
2146
- {
2147
- "epoch": 0.22,
2148
- "learning_rate": 0.0019590909090909095,
2149
- "loss": 4.2574,
2150
- "step": 3570
2151
- },
2152
- {
2153
- "epoch": 0.22,
2154
- "learning_rate": 0.001957575757575758,
2155
- "loss": 4.2453,
2156
- "step": 3580
2157
- },
2158
- {
2159
- "epoch": 0.22,
2160
- "learning_rate": 0.001956060606060606,
2161
- "loss": 4.1461,
2162
- "step": 3590
2163
- },
2164
- {
2165
- "epoch": 0.22,
2166
- "learning_rate": 0.0019545454545454545,
2167
- "loss": 4.1102,
2168
- "step": 3600
2169
- },
2170
- {
2171
- "epoch": 0.22,
2172
- "learning_rate": 0.0019530303030303032,
2173
- "loss": 4.5449,
2174
- "step": 3610
2175
- },
2176
- {
2177
- "epoch": 0.22,
2178
- "learning_rate": 0.0019515151515151516,
2179
- "loss": 3.9111,
2180
- "step": 3620
2181
- },
2182
- {
2183
- "epoch": 0.22,
2184
- "learning_rate": 0.0019500000000000001,
2185
- "loss": 3.9598,
2186
- "step": 3630
2187
- },
2188
- {
2189
- "epoch": 0.22,
2190
- "learning_rate": 0.0019484848484848487,
2191
- "loss": 4.2061,
2192
- "step": 3640
2193
- },
2194
- {
2195
- "epoch": 0.22,
2196
- "learning_rate": 0.001946969696969697,
2197
- "loss": 4.4254,
2198
- "step": 3650
2199
- },
2200
- {
2201
- "epoch": 0.22,
2202
- "learning_rate": 0.0019454545454545456,
2203
- "loss": 3.7582,
2204
- "step": 3660
2205
- },
2206
- {
2207
- "epoch": 0.22,
2208
- "learning_rate": 0.001943939393939394,
2209
- "loss": 4.152,
2210
- "step": 3670
2211
- },
2212
- {
2213
- "epoch": 0.22,
2214
- "learning_rate": 0.0019424242424242425,
2215
- "loss": 4.0951,
2216
- "step": 3680
2217
- },
2218
- {
2219
- "epoch": 0.23,
2220
- "learning_rate": 0.001940909090909091,
2221
- "loss": 4.1152,
2222
- "step": 3690
2223
- },
2224
- {
2225
- "epoch": 0.23,
2226
- "learning_rate": 0.0019393939393939393,
2227
- "loss": 4.3834,
2228
- "step": 3700
2229
- },
2230
- {
2231
- "epoch": 0.23,
2232
- "learning_rate": 0.001937878787878788,
2233
- "loss": 4.3691,
2234
- "step": 3710
2235
- },
2236
- {
2237
- "epoch": 0.23,
2238
- "learning_rate": 0.0019363636363636365,
2239
- "loss": 4.1271,
2240
- "step": 3720
2241
- },
2242
- {
2243
- "epoch": 0.23,
2244
- "learning_rate": 0.0019348484848484848,
2245
- "loss": 4.2613,
2246
- "step": 3730
2247
- },
2248
- {
2249
- "epoch": 0.23,
2250
- "learning_rate": 0.0019333333333333333,
2251
- "loss": 3.8348,
2252
- "step": 3740
2253
- },
2254
- {
2255
- "epoch": 0.23,
2256
- "learning_rate": 0.001931818181818182,
2257
- "loss": 4.1611,
2258
- "step": 3750
2259
- },
2260
- {
2261
- "epoch": 0.23,
2262
- "learning_rate": 0.0019303030303030302,
2263
- "loss": 4.2691,
2264
- "step": 3760
2265
- },
2266
- {
2267
- "epoch": 0.23,
2268
- "learning_rate": 0.0019287878787878788,
2269
- "loss": 4.2182,
2270
- "step": 3770
2271
- },
2272
- {
2273
- "epoch": 0.23,
2274
- "learning_rate": 0.0019272727272727273,
2275
- "loss": 4.1658,
2276
- "step": 3780
2277
- },
2278
- {
2279
- "epoch": 0.23,
2280
- "learning_rate": 0.0019257575757575757,
2281
- "loss": 3.9271,
2282
- "step": 3790
2283
- },
2284
- {
2285
- "epoch": 0.23,
2286
- "learning_rate": 0.0019242424242424242,
2287
- "loss": 3.7492,
2288
- "step": 3800
2289
- },
2290
- {
2291
- "epoch": 0.23,
2292
- "learning_rate": 0.0019227272727272726,
2293
- "loss": 4.0193,
2294
- "step": 3810
2295
- },
2296
- {
2297
- "epoch": 0.23,
2298
- "learning_rate": 0.0019212121212121211,
2299
- "loss": 4.4439,
2300
- "step": 3820
2301
- },
2302
- {
2303
- "epoch": 0.23,
2304
- "learning_rate": 0.0019196969696969697,
2305
- "loss": 4.0443,
2306
- "step": 3830
2307
- },
2308
- {
2309
- "epoch": 0.23,
2310
- "learning_rate": 0.001918181818181818,
2311
- "loss": 4.2902,
2312
- "step": 3840
2313
- },
2314
- {
2315
- "epoch": 0.23,
2316
- "learning_rate": 0.0019166666666666668,
2317
- "loss": 4.0879,
2318
- "step": 3850
2319
- },
2320
- {
2321
- "epoch": 0.24,
2322
- "learning_rate": 0.0019151515151515153,
2323
- "loss": 4.509,
2324
- "step": 3860
2325
- },
2326
- {
2327
- "epoch": 0.24,
2328
- "learning_rate": 0.0019136363636363639,
2329
- "loss": 4.2645,
2330
- "step": 3870
2331
- },
2332
- {
2333
- "epoch": 0.24,
2334
- "learning_rate": 0.0019121212121212122,
2335
- "loss": 3.8994,
2336
- "step": 3880
2337
- },
2338
- {
2339
- "epoch": 0.24,
2340
- "learning_rate": 0.0019106060606060608,
2341
- "loss": 3.8268,
2342
- "step": 3890
2343
- },
2344
- {
2345
- "epoch": 0.24,
2346
- "learning_rate": 0.0019090909090909091,
2347
- "loss": 4.0371,
2348
- "step": 3900
2349
- },
2350
- {
2351
- "epoch": 0.24,
2352
- "learning_rate": 0.0019075757575757577,
2353
- "loss": 4.2105,
2354
- "step": 3910
2355
- },
2356
- {
2357
- "epoch": 0.24,
2358
- "learning_rate": 0.0019060606060606062,
2359
- "loss": 4.0234,
2360
- "step": 3920
2361
- },
2362
- {
2363
- "epoch": 0.24,
2364
- "learning_rate": 0.0019045454545454546,
2365
- "loss": 3.8813,
2366
- "step": 3930
2367
- },
2368
- {
2369
- "epoch": 0.24,
2370
- "learning_rate": 0.001903030303030303,
2371
- "loss": 4.4242,
2372
- "step": 3940
2373
- },
2374
- {
2375
- "epoch": 0.24,
2376
- "learning_rate": 0.0019015151515151517,
2377
- "loss": 3.7244,
2378
- "step": 3950
2379
- },
2380
- {
2381
- "epoch": 0.24,
2382
- "learning_rate": 0.0019,
2383
- "loss": 4.2068,
2384
- "step": 3960
2385
- },
2386
- {
2387
- "epoch": 0.24,
2388
- "learning_rate": 0.0018984848484848485,
2389
- "loss": 4.008,
2390
- "step": 3970
2391
- },
2392
- {
2393
- "epoch": 0.24,
2394
- "learning_rate": 0.001896969696969697,
2395
- "loss": 4.1963,
2396
- "step": 3980
2397
- },
2398
- {
2399
- "epoch": 0.24,
2400
- "learning_rate": 0.0018954545454545454,
2401
- "loss": 4.5043,
2402
- "step": 3990
2403
- },
2404
- {
2405
- "epoch": 0.24,
2406
- "learning_rate": 0.001893939393939394,
2407
- "loss": 4.0703,
2408
- "step": 4000
2409
- },
2410
- {
2411
- "epoch": 0.24,
2412
- "learning_rate": 0.0018924242424242425,
2413
- "loss": 3.9598,
2414
- "step": 4010
2415
- },
2416
- {
2417
- "epoch": 0.25,
2418
- "learning_rate": 0.0018909090909090909,
2419
- "loss": 4.1252,
2420
- "step": 4020
2421
- },
2422
- {
2423
- "epoch": 0.25,
2424
- "learning_rate": 0.0018893939393939394,
2425
- "loss": 4.2848,
2426
- "step": 4030
2427
- },
2428
- {
2429
- "epoch": 0.25,
2430
- "learning_rate": 0.0018878787878787878,
2431
- "loss": 3.9209,
2432
- "step": 4040
2433
- },
2434
- {
2435
- "epoch": 0.25,
2436
- "learning_rate": 0.0018863636363636363,
2437
- "loss": 4.2768,
2438
- "step": 4050
2439
- },
2440
- {
2441
- "epoch": 0.25,
2442
- "learning_rate": 0.0018848484848484849,
2443
- "loss": 4.1338,
2444
- "step": 4060
2445
- },
2446
- {
2447
- "epoch": 0.25,
2448
- "learning_rate": 0.0018833333333333332,
2449
- "loss": 4.1549,
2450
- "step": 4070
2451
- },
2452
- {
2453
- "epoch": 0.25,
2454
- "learning_rate": 0.0018818181818181818,
2455
- "loss": 3.7658,
2456
- "step": 4080
2457
- },
2458
- {
2459
- "epoch": 0.25,
2460
- "learning_rate": 0.0018803030303030303,
2461
- "loss": 3.865,
2462
- "step": 4090
2463
- },
2464
- {
2465
- "epoch": 0.25,
2466
- "learning_rate": 0.0018787878787878787,
2467
- "loss": 3.9766,
2468
- "step": 4100
2469
- },
2470
- {
2471
- "epoch": 0.25,
2472
- "learning_rate": 0.0018772727272727272,
2473
- "loss": 4.2186,
2474
- "step": 4110
2475
- },
2476
- {
2477
- "epoch": 0.25,
2478
- "learning_rate": 0.0018757575757575758,
2479
- "loss": 4.3256,
2480
- "step": 4120
2481
- },
2482
- {
2483
- "epoch": 0.25,
2484
- "learning_rate": 0.0018742424242424243,
2485
- "loss": 4.1537,
2486
- "step": 4130
2487
- },
2488
- {
2489
- "epoch": 0.25,
2490
- "learning_rate": 0.0018727272727272729,
2491
- "loss": 3.8939,
2492
- "step": 4140
2493
- },
2494
- {
2495
- "epoch": 0.25,
2496
- "learning_rate": 0.0018712121212121214,
2497
- "loss": 4.201,
2498
- "step": 4150
2499
- },
2500
- {
2501
- "epoch": 0.25,
2502
- "learning_rate": 0.0018696969696969698,
2503
- "loss": 4.3982,
2504
- "step": 4160
2505
- },
2506
- {
2507
- "epoch": 0.25,
2508
- "learning_rate": 0.0018681818181818183,
2509
- "loss": 4.3611,
2510
- "step": 4170
2511
- },
2512
- {
2513
- "epoch": 0.25,
2514
- "learning_rate": 0.0018666666666666669,
2515
- "loss": 3.9762,
2516
- "step": 4180
2517
- },
2518
- {
2519
- "epoch": 0.26,
2520
- "learning_rate": 0.0018651515151515152,
2521
- "loss": 4.0193,
2522
- "step": 4190
2523
- },
2524
- {
2525
- "epoch": 0.26,
2526
- "learning_rate": 0.0018636363636363638,
2527
- "loss": 4.507,
2528
- "step": 4200
2529
- },
2530
- {
2531
- "epoch": 0.26,
2532
- "learning_rate": 0.0018621212121212123,
2533
- "loss": 4.2193,
2534
- "step": 4210
2535
- },
2536
- {
2537
- "epoch": 0.26,
2538
- "learning_rate": 0.0018606060606060606,
2539
- "loss": 4.0932,
2540
- "step": 4220
2541
- },
2542
- {
2543
- "epoch": 0.26,
2544
- "learning_rate": 0.0018590909090909092,
2545
- "loss": 3.9719,
2546
- "step": 4230
2547
- },
2548
- {
2549
- "epoch": 0.26,
2550
- "learning_rate": 0.0018575757575757575,
2551
- "loss": 4.4113,
2552
- "step": 4240
2553
- },
2554
- {
2555
- "epoch": 0.26,
2556
- "learning_rate": 0.001856060606060606,
2557
- "loss": 4.0824,
2558
- "step": 4250
2559
- },
2560
- {
2561
- "epoch": 0.26,
2562
- "learning_rate": 0.0018545454545454546,
2563
- "loss": 3.5553,
2564
- "step": 4260
2565
- },
2566
- {
2567
- "epoch": 0.26,
2568
- "learning_rate": 0.001853030303030303,
2569
- "loss": 3.9251,
2570
- "step": 4270
2571
- },
2572
- {
2573
- "epoch": 0.26,
2574
- "learning_rate": 0.0018515151515151515,
2575
- "loss": 4.3514,
2576
- "step": 4280
2577
- },
2578
- {
2579
- "epoch": 0.26,
2580
- "learning_rate": 0.00185,
2581
- "loss": 4.2945,
2582
- "step": 4290
2583
- },
2584
- {
2585
- "epoch": 0.26,
2586
- "learning_rate": 0.0018484848484848484,
2587
- "loss": 4.1324,
2588
- "step": 4300
2589
- },
2590
- {
2591
- "epoch": 0.26,
2592
- "learning_rate": 0.001846969696969697,
2593
- "loss": 4.3477,
2594
- "step": 4310
2595
- },
2596
- {
2597
- "epoch": 0.26,
2598
- "learning_rate": 0.0018454545454545455,
2599
- "loss": 3.9568,
2600
- "step": 4320
2601
- },
2602
- {
2603
- "epoch": 0.26,
2604
- "learning_rate": 0.0018439393939393939,
2605
- "loss": 4.1842,
2606
- "step": 4330
2607
- },
2608
- {
2609
- "epoch": 0.26,
2610
- "learning_rate": 0.0018424242424242424,
2611
- "loss": 3.8381,
2612
- "step": 4340
2613
- },
2614
- {
2615
- "epoch": 0.27,
2616
- "learning_rate": 0.001840909090909091,
2617
- "loss": 3.9949,
2618
- "step": 4350
2619
- },
2620
- {
2621
- "epoch": 0.27,
2622
- "learning_rate": 0.0018393939393939393,
2623
- "loss": 3.9988,
2624
- "step": 4360
2625
- },
2626
- {
2627
- "epoch": 0.27,
2628
- "learning_rate": 0.0018378787878787879,
2629
- "loss": 3.8552,
2630
- "step": 4370
2631
- },
2632
- {
2633
- "epoch": 0.27,
2634
- "learning_rate": 0.0018363636363636362,
2635
- "loss": 4.0248,
2636
- "step": 4380
2637
- },
2638
- {
2639
- "epoch": 0.27,
2640
- "learning_rate": 0.0018348484848484847,
2641
- "loss": 4.0281,
2642
- "step": 4390
2643
- },
2644
- {
2645
- "epoch": 0.27,
2646
- "learning_rate": 0.0018333333333333333,
2647
- "loss": 3.7404,
2648
- "step": 4400
2649
- },
2650
- {
2651
- "epoch": 0.27,
2652
- "learning_rate": 0.001831818181818182,
2653
- "loss": 4.2635,
2654
- "step": 4410
2655
- },
2656
- {
2657
- "epoch": 0.27,
2658
- "learning_rate": 0.0018303030303030304,
2659
- "loss": 4.283,
2660
- "step": 4420
2661
- },
2662
- {
2663
- "epoch": 0.27,
2664
- "learning_rate": 0.001828787878787879,
2665
- "loss": 4.2484,
2666
- "step": 4430
2667
- },
2668
- {
2669
- "epoch": 0.27,
2670
- "learning_rate": 0.0018272727272727275,
2671
- "loss": 3.4916,
2672
- "step": 4440
2673
- },
2674
- {
2675
- "epoch": 0.27,
2676
- "learning_rate": 0.0018257575757575758,
2677
- "loss": 3.9377,
2678
- "step": 4450
2679
- },
2680
- {
2681
- "epoch": 0.27,
2682
- "learning_rate": 0.0018242424242424244,
2683
- "loss": 3.9158,
2684
- "step": 4460
2685
- },
2686
- {
2687
- "epoch": 0.27,
2688
- "learning_rate": 0.0018227272727272727,
2689
- "loss": 3.6584,
2690
- "step": 4470
2691
- },
2692
- {
2693
- "epoch": 0.27,
2694
- "learning_rate": 0.0018212121212121213,
2695
- "loss": 3.9092,
2696
- "step": 4480
2697
- },
2698
- {
2699
- "epoch": 0.27,
2700
- "learning_rate": 0.0018196969696969698,
2701
- "loss": 4.0258,
2702
- "step": 4490
2703
- },
2704
- {
2705
- "epoch": 0.27,
2706
- "learning_rate": 0.0018181818181818182,
2707
- "loss": 4.1592,
2708
- "step": 4500
2709
- },
2710
- {
2711
- "epoch": 0.28,
2712
- "learning_rate": 0.0018166666666666667,
2713
- "loss": 3.96,
2714
- "step": 4510
2715
- },
2716
- {
2717
- "epoch": 0.28,
2718
- "learning_rate": 0.0018151515151515153,
2719
- "loss": 4.0961,
2720
- "step": 4520
2721
- },
2722
- {
2723
- "epoch": 0.28,
2724
- "learning_rate": 0.0018136363636363636,
2725
- "loss": 4.3369,
2726
- "step": 4530
2727
- },
2728
- {
2729
- "epoch": 0.28,
2730
- "learning_rate": 0.0018121212121212122,
2731
- "loss": 4.26,
2732
- "step": 4540
2733
- },
2734
- {
2735
- "epoch": 0.28,
2736
- "learning_rate": 0.0018106060606060607,
2737
- "loss": 3.7775,
2738
- "step": 4550
2739
- },
2740
- {
2741
- "epoch": 0.28,
2742
- "learning_rate": 0.001809090909090909,
2743
- "loss": 4.2238,
2744
- "step": 4560
2745
- },
2746
- {
2747
- "epoch": 0.28,
2748
- "learning_rate": 0.0018075757575757576,
2749
- "loss": 4.024,
2750
- "step": 4570
2751
- },
2752
- {
2753
- "epoch": 0.28,
2754
- "learning_rate": 0.0018060606060606062,
2755
- "loss": 4.4203,
2756
- "step": 4580
2757
- },
2758
- {
2759
- "epoch": 0.28,
2760
- "learning_rate": 0.0018045454545454545,
2761
- "loss": 3.927,
2762
- "step": 4590
2763
- },
2764
- {
2765
- "epoch": 0.28,
2766
- "learning_rate": 0.001803030303030303,
2767
- "loss": 4.0777,
2768
- "step": 4600
2769
- },
2770
- {
2771
- "epoch": 0.28,
2772
- "learning_rate": 0.0018015151515151514,
2773
- "loss": 4.002,
2774
- "step": 4610
2775
- },
2776
- {
2777
- "epoch": 0.28,
2778
- "learning_rate": 0.0018,
2779
- "loss": 4.4143,
2780
- "step": 4620
2781
- },
2782
- {
2783
- "epoch": 0.28,
2784
- "learning_rate": 0.0017984848484848485,
2785
- "loss": 3.9836,
2786
- "step": 4630
2787
- },
2788
- {
2789
- "epoch": 0.28,
2790
- "learning_rate": 0.0017969696969696968,
2791
- "loss": 4.1457,
2792
- "step": 4640
2793
- },
2794
- {
2795
- "epoch": 0.28,
2796
- "learning_rate": 0.0017954545454545454,
2797
- "loss": 3.8955,
2798
- "step": 4650
2799
- },
2800
- {
2801
- "epoch": 0.28,
2802
- "learning_rate": 0.001793939393939394,
2803
- "loss": 4.282,
2804
- "step": 4660
2805
- },
2806
- {
2807
- "epoch": 0.28,
2808
- "learning_rate": 0.0017924242424242423,
2809
- "loss": 4.1152,
2810
- "step": 4670
2811
- },
2812
- {
2813
- "epoch": 0.29,
2814
- "learning_rate": 0.0017909090909090908,
2815
- "loss": 4.4537,
2816
- "step": 4680
2817
- },
2818
- {
2819
- "epoch": 0.29,
2820
- "learning_rate": 0.0017893939393939394,
2821
- "loss": 4.3918,
2822
- "step": 4690
2823
- },
2824
- {
2825
- "epoch": 0.29,
2826
- "learning_rate": 0.001787878787878788,
2827
- "loss": 3.9969,
2828
- "step": 4700
2829
- },
2830
- {
2831
- "epoch": 0.29,
2832
- "learning_rate": 0.0017863636363636365,
2833
- "loss": 4.4594,
2834
- "step": 4710
2835
- },
2836
- {
2837
- "epoch": 0.29,
2838
- "learning_rate": 0.001784848484848485,
2839
- "loss": 3.8802,
2840
- "step": 4720
2841
- },
2842
- {
2843
- "epoch": 0.29,
2844
- "learning_rate": 0.0017833333333333334,
2845
- "loss": 4.3977,
2846
- "step": 4730
2847
- },
2848
- {
2849
- "epoch": 0.29,
2850
- "learning_rate": 0.001781818181818182,
2851
- "loss": 3.9135,
2852
- "step": 4740
2853
- },
2854
- {
2855
- "epoch": 0.29,
2856
- "learning_rate": 0.0017803030303030305,
2857
- "loss": 4.2225,
2858
- "step": 4750
2859
- },
2860
- {
2861
- "epoch": 0.29,
2862
- "learning_rate": 0.0017787878787878788,
2863
- "loss": 4.1572,
2864
- "step": 4760
2865
- },
2866
- {
2867
- "epoch": 0.29,
2868
- "learning_rate": 0.0017772727272727274,
2869
- "loss": 3.9195,
2870
- "step": 4770
2871
- },
2872
- {
2873
- "epoch": 0.29,
2874
- "learning_rate": 0.001775757575757576,
2875
- "loss": 4.1182,
2876
- "step": 4780
2877
- },
2878
- {
2879
- "epoch": 0.29,
2880
- "learning_rate": 0.0017742424242424243,
2881
- "loss": 4.0127,
2882
- "step": 4790
2883
- },
2884
- {
2885
- "epoch": 0.29,
2886
- "learning_rate": 0.0017727272727272728,
2887
- "loss": 3.725,
2888
- "step": 4800
2889
- },
2890
- {
2891
- "epoch": 0.29,
2892
- "learning_rate": 0.0017712121212121214,
2893
- "loss": 3.9258,
2894
- "step": 4810
2895
- },
2896
- {
2897
- "epoch": 0.29,
2898
- "learning_rate": 0.0017696969696969697,
2899
- "loss": 3.6133,
2900
- "step": 4820
2901
- },
2902
- {
2903
- "epoch": 0.29,
2904
- "learning_rate": 0.0017681818181818183,
2905
- "loss": 3.6561,
2906
- "step": 4830
2907
- },
2908
- {
2909
- "epoch": 0.3,
2910
- "learning_rate": 0.0017666666666666666,
2911
- "loss": 3.9838,
2912
- "step": 4840
2913
- },
2914
- {
2915
- "epoch": 0.3,
2916
- "learning_rate": 0.0017651515151515152,
2917
- "loss": 4.0107,
2918
- "step": 4850
2919
- },
2920
- {
2921
- "epoch": 0.3,
2922
- "learning_rate": 0.0017636363636363637,
2923
- "loss": 4.1814,
2924
- "step": 4860
2925
- },
2926
- {
2927
- "epoch": 0.3,
2928
- "learning_rate": 0.001762121212121212,
2929
- "loss": 4.0902,
2930
- "step": 4870
2931
- },
2932
- {
2933
- "epoch": 0.3,
2934
- "learning_rate": 0.0017606060606060606,
2935
- "loss": 4.418,
2936
- "step": 4880
2937
- },
2938
- {
2939
- "epoch": 0.3,
2940
- "learning_rate": 0.0017590909090909092,
2941
- "loss": 4.008,
2942
- "step": 4890
2943
- },
2944
- {
2945
- "epoch": 0.3,
2946
- "learning_rate": 0.0017575757575757575,
2947
- "loss": 4.2344,
2948
- "step": 4900
2949
- },
2950
- {
2951
- "epoch": 0.3,
2952
- "learning_rate": 0.001756060606060606,
2953
- "loss": 3.9775,
2954
- "step": 4910
2955
- },
2956
- {
2957
- "epoch": 0.3,
2958
- "learning_rate": 0.0017545454545454546,
2959
- "loss": 4.8027,
2960
- "step": 4920
2961
- },
2962
- {
2963
- "epoch": 0.3,
2964
- "learning_rate": 0.001753030303030303,
2965
- "loss": 4.2629,
2966
- "step": 4930
2967
- },
2968
- {
2969
- "epoch": 0.3,
2970
- "learning_rate": 0.0017515151515151515,
2971
- "loss": 4.198,
2972
- "step": 4940
2973
- },
2974
- {
2975
- "epoch": 0.3,
2976
- "learning_rate": 0.0017499999999999998,
2977
- "loss": 4.0887,
2978
- "step": 4950
2979
- },
2980
- {
2981
- "epoch": 0.3,
2982
- "learning_rate": 0.0017484848484848484,
2983
- "loss": 4.1445,
2984
- "step": 4960
2985
- },
2986
- {
2987
- "epoch": 0.3,
2988
- "learning_rate": 0.001746969696969697,
2989
- "loss": 3.9627,
2990
- "step": 4970
2991
- },
2992
- {
2993
- "epoch": 0.3,
2994
- "learning_rate": 0.0017454545454545457,
2995
- "loss": 4.4545,
2996
- "step": 4980
2997
- },
2998
- {
2999
- "epoch": 0.3,
3000
- "learning_rate": 0.001743939393939394,
3001
- "loss": 4.0764,
3002
- "step": 4990
3003
- },
3004
- {
3005
- "epoch": 0.31,
3006
- "learning_rate": 0.0017424242424242426,
3007
- "loss": 4.1914,
3008
- "step": 5000
3009
  }
3010
  ],
3011
- "max_steps": 16500,
3012
- "num_train_epochs": 2,
3013
- "total_flos": 1.7332860616704e+17,
3014
  "trial_name": null,
3015
  "trial_params": null
3016
  }
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.7411982705373688,
5
+ "global_step": 3000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
9
  "log_history": [
10
  {
11
  "epoch": 0.0,
12
+ "learning_rate": 0.009966666666666667,
13
+ "loss": 7.0004,
14
  "step": 10
15
  },
16
  {
17
  "epoch": 0.0,
18
+ "learning_rate": 0.009933333333333334,
19
+ "loss": 5.1476,
20
  "step": 20
21
  },
22
  {
23
+ "epoch": 0.01,
24
+ "learning_rate": 0.0099,
25
+ "loss": 4.8502,
26
  "step": 30
27
  },
28
  {
29
+ "epoch": 0.01,
30
+ "learning_rate": 0.009866666666666668,
31
+ "loss": 5.021,
32
  "step": 40
33
  },
34
  {
35
+ "epoch": 0.01,
36
+ "learning_rate": 0.009833333333333333,
37
+ "loss": 4.8921,
38
  "step": 50
39
  },
40
  {
41
+ "epoch": 0.01,
42
+ "learning_rate": 0.0098,
43
+ "loss": 4.6428,
44
  "step": 60
45
  },
46
  {
47
+ "epoch": 0.02,
48
+ "learning_rate": 0.009766666666666667,
49
+ "loss": 4.5476,
50
  "step": 70
51
  },
52
  {
53
+ "epoch": 0.02,
54
+ "learning_rate": 0.009733333333333333,
55
+ "loss": 4.5806,
56
  "step": 80
57
  },
58
  {
59
+ "epoch": 0.02,
60
+ "learning_rate": 0.0097,
61
+ "loss": 4.6201,
62
  "step": 90
63
  },
64
  {
65
+ "epoch": 0.02,
66
+ "learning_rate": 0.009666666666666667,
67
+ "loss": 4.7022,
68
  "step": 100
69
  },
70
  {
71
+ "epoch": 0.03,
72
+ "learning_rate": 0.009633333333333334,
73
+ "loss": 4.8143,
74
  "step": 110
75
  },
76
  {
77
+ "epoch": 0.03,
78
+ "learning_rate": 0.0096,
79
+ "loss": 4.6018,
80
  "step": 120
81
  },
82
  {
83
+ "epoch": 0.03,
84
+ "learning_rate": 0.009566666666666666,
85
+ "loss": 4.537,
86
  "step": 130
87
  },
88
  {
89
+ "epoch": 0.03,
90
+ "learning_rate": 0.009533333333333335,
91
+ "loss": 4.4639,
92
  "step": 140
93
  },
94
  {
95
+ "epoch": 0.04,
96
+ "learning_rate": 0.0095,
97
+ "loss": 4.6586,
98
  "step": 150
99
  },
100
  {
101
+ "epoch": 0.04,
102
+ "learning_rate": 0.009466666666666667,
103
+ "loss": 4.4959,
104
  "step": 160
105
  },
106
  {
107
+ "epoch": 0.04,
108
+ "learning_rate": 0.009433333333333334,
109
+ "loss": 4.5384,
110
  "step": 170
111
  },
112
  {
113
+ "epoch": 0.04,
114
+ "learning_rate": 0.0094,
115
+ "loss": 4.492,
116
  "step": 180
117
  },
118
  {
119
+ "epoch": 0.05,
120
+ "learning_rate": 0.009366666666666667,
121
+ "loss": 4.4752,
122
  "step": 190
123
  },
124
  {
125
+ "epoch": 0.05,
126
+ "learning_rate": 0.009333333333333334,
127
+ "loss": 4.5291,
128
  "step": 200
129
  },
130
  {
131
+ "epoch": 0.05,
132
+ "learning_rate": 0.009300000000000001,
133
+ "loss": 4.6333,
134
  "step": 210
135
  },
136
  {
137
+ "epoch": 0.05,
138
+ "learning_rate": 0.009266666666666666,
139
+ "loss": 4.5502,
140
  "step": 220
141
  },
142
  {
143
+ "epoch": 0.06,
144
+ "learning_rate": 0.009233333333333333,
145
+ "loss": 4.5557,
146
  "step": 230
147
  },
148
  {
149
+ "epoch": 0.06,
150
+ "learning_rate": 0.0092,
151
+ "loss": 4.506,
152
  "step": 240
153
  },
154
  {
155
+ "epoch": 0.06,
156
+ "learning_rate": 0.009166666666666667,
157
+ "loss": 4.5152,
158
  "step": 250
159
  },
160
  {
161
+ "epoch": 0.06,
162
+ "learning_rate": 0.009133333333333334,
163
+ "loss": 4.3693,
164
  "step": 260
165
  },
166
  {
167
+ "epoch": 0.07,
168
+ "learning_rate": 0.0091,
169
+ "loss": 4.5314,
170
  "step": 270
171
  },
172
  {
173
+ "epoch": 0.07,
174
+ "learning_rate": 0.009066666666666666,
175
+ "loss": 4.4953,
176
  "step": 280
177
  },
178
  {
179
+ "epoch": 0.07,
180
+ "learning_rate": 0.009033333333333334,
181
+ "loss": 4.3883,
182
  "step": 290
183
  },
184
  {
185
+ "epoch": 0.07,
186
+ "learning_rate": 0.009000000000000001,
187
+ "loss": 4.4969,
188
  "step": 300
189
  },
190
  {
191
+ "epoch": 0.08,
192
+ "learning_rate": 0.008966666666666666,
193
+ "loss": 4.3024,
194
  "step": 310
195
  },
196
  {
197
+ "epoch": 0.08,
198
+ "learning_rate": 0.008933333333333333,
199
+ "loss": 4.4308,
200
  "step": 320
201
  },
202
  {
203
+ "epoch": 0.08,
204
+ "learning_rate": 0.0089,
205
+ "loss": 4.5012,
206
  "step": 330
207
  },
208
  {
209
+ "epoch": 0.08,
210
+ "learning_rate": 0.008866666666666667,
211
+ "loss": 4.3717,
212
  "step": 340
213
  },
214
  {
215
+ "epoch": 0.09,
216
+ "learning_rate": 0.008833333333333334,
217
+ "loss": 4.537,
218
  "step": 350
219
  },
220
  {
221
+ "epoch": 0.09,
222
+ "learning_rate": 0.0088,
223
+ "loss": 4.5179,
224
  "step": 360
225
  },
226
  {
227
+ "epoch": 0.09,
228
+ "learning_rate": 0.008766666666666667,
229
+ "loss": 4.4486,
230
  "step": 370
231
  },
232
  {
233
+ "epoch": 0.09,
234
+ "learning_rate": 0.008733333333333333,
235
+ "loss": 4.3702,
236
  "step": 380
237
  },
238
  {
239
+ "epoch": 0.1,
240
+ "learning_rate": 0.0087,
241
+ "loss": 4.4007,
242
  "step": 390
243
  },
244
  {
245
+ "epoch": 0.1,
246
+ "learning_rate": 0.008666666666666668,
247
+ "loss": 4.3644,
248
  "step": 400
249
  },
250
  {
251
+ "epoch": 0.1,
252
+ "learning_rate": 0.008633333333333333,
253
+ "loss": 4.3609,
254
  "step": 410
255
  },
256
  {
257
+ "epoch": 0.1,
258
+ "learning_rate": 0.0086,
259
+ "loss": 4.4516,
260
  "step": 420
261
  },
262
  {
263
+ "epoch": 0.11,
264
+ "learning_rate": 0.008566666666666667,
265
+ "loss": 4.6509,
266
  "step": 430
267
  },
268
  {
269
+ "epoch": 0.11,
270
+ "learning_rate": 0.008533333333333334,
271
+ "loss": 4.385,
272
  "step": 440
273
  },
274
  {
275
+ "epoch": 0.11,
276
+ "learning_rate": 0.0085,
277
+ "loss": 4.18,
278
  "step": 450
279
  },
280
  {
281
+ "epoch": 0.11,
282
+ "learning_rate": 0.008466666666666667,
283
+ "loss": 4.4116,
284
  "step": 460
285
  },
286
  {
287
+ "epoch": 0.12,
288
+ "learning_rate": 0.008433333333333334,
289
+ "loss": 4.2448,
290
  "step": 470
291
  },
292
  {
293
+ "epoch": 0.12,
294
+ "learning_rate": 0.0084,
295
+ "loss": 4.4896,
296
  "step": 480
297
  },
298
  {
299
+ "epoch": 0.12,
300
+ "learning_rate": 0.008366666666666666,
301
+ "loss": 4.218,
302
  "step": 490
303
  },
304
  {
305
+ "epoch": 0.12,
306
+ "learning_rate": 0.008333333333333333,
307
+ "loss": 4.3868,
308
  "step": 500
309
  },
310
  {
311
+ "epoch": 0.13,
312
+ "learning_rate": 0.0083,
313
+ "loss": 4.5683,
314
  "step": 510
315
  },
316
  {
317
+ "epoch": 0.13,
318
+ "learning_rate": 0.008266666666666667,
319
+ "loss": 4.4843,
320
  "step": 520
321
  },
322
  {
323
+ "epoch": 0.13,
324
+ "learning_rate": 0.008233333333333334,
325
+ "loss": 4.4812,
326
  "step": 530
327
  },
328
  {
329
+ "epoch": 0.13,
330
+ "learning_rate": 0.008199999999999999,
331
+ "loss": 4.4266,
332
  "step": 540
333
  },
334
  {
335
+ "epoch": 0.14,
336
+ "learning_rate": 0.008166666666666666,
337
+ "loss": 4.3364,
338
  "step": 550
339
  },
340
  {
341
+ "epoch": 0.14,
342
+ "learning_rate": 0.008133333333333334,
343
+ "loss": 4.1113,
344
  "step": 560
345
  },
346
  {
347
+ "epoch": 0.14,
348
+ "learning_rate": 0.008100000000000001,
349
+ "loss": 4.3747,
350
  "step": 570
351
  },
352
  {
353
+ "epoch": 0.14,
354
+ "learning_rate": 0.008066666666666666,
355
+ "loss": 4.1932,
356
  "step": 580
357
  },
358
  {
359
+ "epoch": 0.15,
360
+ "learning_rate": 0.008033333333333333,
361
+ "loss": 4.4313,
362
  "step": 590
363
  },
364
  {
365
+ "epoch": 0.15,
366
+ "learning_rate": 0.008,
367
+ "loss": 4.5681,
368
  "step": 600
369
  },
370
  {
371
+ "epoch": 0.15,
372
+ "learning_rate": 0.007966666666666667,
373
+ "loss": 4.2834,
374
  "step": 610
375
  },
376
  {
377
+ "epoch": 0.15,
378
+ "learning_rate": 0.007933333333333334,
379
+ "loss": 4.1894,
380
  "step": 620
381
  },
382
  {
383
+ "epoch": 0.16,
384
+ "learning_rate": 0.0079,
385
+ "loss": 4.1893,
386
  "step": 630
387
  },
388
  {
389
+ "epoch": 0.16,
390
+ "learning_rate": 0.007866666666666666,
391
+ "loss": 4.2524,
392
  "step": 640
393
  },
394
  {
395
+ "epoch": 0.16,
396
+ "learning_rate": 0.007833333333333333,
397
+ "loss": 4.2664,
398
  "step": 650
399
  },
400
  {
401
+ "epoch": 0.16,
402
+ "learning_rate": 0.0078000000000000005,
403
+ "loss": 4.4596,
404
  "step": 660
405
  },
406
  {
407
+ "epoch": 0.17,
408
+ "learning_rate": 0.0077666666666666665,
409
+ "loss": 4.337,
410
  "step": 670
411
  },
412
  {
413
+ "epoch": 0.17,
414
+ "learning_rate": 0.007733333333333333,
415
+ "loss": 4.4285,
416
  "step": 680
417
  },
418
  {
419
+ "epoch": 0.17,
420
+ "learning_rate": 0.0077,
421
+ "loss": 4.6274,
422
  "step": 690
423
  },
424
  {
425
+ "epoch": 0.17,
426
+ "learning_rate": 0.007666666666666667,
427
+ "loss": 4.0607,
428
  "step": 700
429
  },
430
  {
431
+ "epoch": 0.18,
432
+ "learning_rate": 0.007633333333333333,
433
+ "loss": 4.1962,
434
  "step": 710
435
  },
436
  {
437
+ "epoch": 0.18,
438
+ "learning_rate": 0.0076,
439
+ "loss": 4.3745,
440
  "step": 720
441
  },
442
  {
443
+ "epoch": 0.18,
444
+ "learning_rate": 0.007566666666666667,
445
+ "loss": 4.4017,
446
  "step": 730
447
  },
448
  {
449
+ "epoch": 0.18,
450
+ "learning_rate": 0.007533333333333333,
451
+ "loss": 4.3724,
452
  "step": 740
453
  },
454
  {
455
+ "epoch": 0.19,
456
+ "learning_rate": 0.0075,
457
+ "loss": 4.3045,
458
  "step": 750
459
  },
460
  {
461
+ "epoch": 0.19,
462
+ "learning_rate": 0.0074666666666666675,
463
+ "loss": 4.474,
464
  "step": 760
465
  },
466
  {
467
+ "epoch": 0.19,
468
+ "learning_rate": 0.0074333333333333335,
469
+ "loss": 4.5238,
470
  "step": 770
471
  },
472
  {
473
+ "epoch": 0.19,
474
+ "learning_rate": 0.0074,
475
+ "loss": 4.1164,
476
  "step": 780
477
  },
478
  {
479
+ "epoch": 0.2,
480
+ "learning_rate": 0.007366666666666667,
481
+ "loss": 4.2786,
482
  "step": 790
483
  },
484
  {
485
+ "epoch": 0.2,
486
+ "learning_rate": 0.007333333333333333,
487
+ "loss": 4.4114,
488
  "step": 800
489
  },
490
  {
491
+ "epoch": 0.2,
492
+ "learning_rate": 0.0073,
493
+ "loss": 4.4363,
494
  "step": 810
495
  },
496
  {
497
+ "epoch": 0.2,
498
+ "learning_rate": 0.007266666666666667,
499
+ "loss": 4.2298,
500
  "step": 820
501
  },
502
  {
503
+ "epoch": 0.21,
504
+ "learning_rate": 0.007233333333333334,
505
+ "loss": 4.2785,
506
  "step": 830
507
  },
508
  {
509
+ "epoch": 0.21,
510
+ "learning_rate": 0.0072,
511
+ "loss": 4.3053,
512
  "step": 840
513
  },
514
  {
515
+ "epoch": 0.21,
516
+ "learning_rate": 0.007166666666666667,
517
+ "loss": 4.362,
518
  "step": 850
519
  },
520
  {
521
+ "epoch": 0.21,
522
+ "learning_rate": 0.0071333333333333335,
523
+ "loss": 4.4354,
524
  "step": 860
525
  },
526
  {
527
+ "epoch": 0.21,
528
+ "learning_rate": 0.0070999999999999995,
529
+ "loss": 4.1747,
530
  "step": 870
531
  },
532
  {
533
+ "epoch": 0.22,
534
+ "learning_rate": 0.007066666666666666,
535
+ "loss": 4.3513,
536
  "step": 880
537
  },
538
  {
539
+ "epoch": 0.22,
540
+ "learning_rate": 0.007033333333333334,
541
+ "loss": 4.2549,
542
  "step": 890
543
  },
544
  {
545
+ "epoch": 0.22,
546
+ "learning_rate": 0.006999999999999999,
547
+ "loss": 4.3498,
548
  "step": 900
549
  },
550
  {
551
+ "epoch": 0.22,
552
+ "learning_rate": 0.006966666666666667,
553
+ "loss": 4.2941,
554
  "step": 910
555
  },
556
  {
557
+ "epoch": 0.23,
558
+ "learning_rate": 0.006933333333333334,
559
+ "loss": 4.1282,
560
  "step": 920
561
  },
562
  {
563
+ "epoch": 0.23,
564
+ "learning_rate": 0.0069,
565
+ "loss": 4.1495,
566
  "step": 930
567
  },
568
  {
569
+ "epoch": 0.23,
570
+ "learning_rate": 0.006866666666666667,
571
+ "loss": 4.2687,
572
  "step": 940
573
  },
574
  {
575
+ "epoch": 0.23,
576
+ "learning_rate": 0.006833333333333334,
577
+ "loss": 4.3516,
578
  "step": 950
579
  },
580
  {
581
+ "epoch": 0.24,
582
+ "learning_rate": 0.0068000000000000005,
583
+ "loss": 4.3666,
584
  "step": 960
585
  },
586
  {
587
+ "epoch": 0.24,
588
+ "learning_rate": 0.0067666666666666665,
589
+ "loss": 4.1908,
590
  "step": 970
591
  },
592
  {
593
+ "epoch": 0.24,
594
+ "learning_rate": 0.006733333333333333,
595
+ "loss": 4.2715,
596
  "step": 980
597
  },
598
  {
599
+ "epoch": 0.24,
600
+ "learning_rate": 0.0067,
601
+ "loss": 4.2329,
602
  "step": 990
603
  },
604
  {
605
+ "epoch": 0.25,
606
+ "learning_rate": 0.006666666666666666,
607
+ "loss": 4.4314,
608
  "step": 1000
609
  },
610
  {
611
+ "epoch": 0.25,
612
+ "learning_rate": 0.006633333333333333,
613
+ "loss": 4.2864,
614
  "step": 1010
615
  },
616
  {
617
+ "epoch": 0.25,
618
+ "learning_rate": 0.006600000000000001,
619
+ "loss": 4.3838,
620
  "step": 1020
621
  },
622
  {
623
+ "epoch": 0.25,
624
+ "learning_rate": 0.006566666666666666,
625
+ "loss": 4.2356,
626
  "step": 1030
627
  },
628
  {
629
+ "epoch": 0.26,
630
+ "learning_rate": 0.006533333333333334,
631
+ "loss": 4.2983,
632
  "step": 1040
633
  },
634
  {
635
+ "epoch": 0.26,
636
+ "learning_rate": 0.006500000000000001,
637
+ "loss": 4.3479,
638
  "step": 1050
639
  },
640
  {
641
+ "epoch": 0.26,
642
+ "learning_rate": 0.006466666666666667,
643
+ "loss": 4.2771,
644
  "step": 1060
645
  },
646
  {
647
+ "epoch": 0.26,
648
+ "learning_rate": 0.0064333333333333334,
649
+ "loss": 4.257,
650
  "step": 1070
651
  },
652
  {
653
+ "epoch": 0.27,
654
+ "learning_rate": 0.0064,
655
+ "loss": 4.3631,
656
  "step": 1080
657
  },
658
  {
659
+ "epoch": 0.27,
660
+ "learning_rate": 0.006366666666666667,
661
+ "loss": 4.2931,
662
  "step": 1090
663
  },
664
  {
665
+ "epoch": 0.27,
666
+ "learning_rate": 0.006333333333333333,
667
+ "loss": 4.3208,
668
  "step": 1100
669
  },
670
  {
671
+ "epoch": 0.27,
672
+ "learning_rate": 0.0063,
673
+ "loss": 4.2002,
674
  "step": 1110
675
  },
676
  {
677
+ "epoch": 0.28,
678
+ "learning_rate": 0.006266666666666667,
679
+ "loss": 4.4128,
680
  "step": 1120
681
  },
682
  {
683
+ "epoch": 0.28,
684
+ "learning_rate": 0.006233333333333333,
685
+ "loss": 4.1506,
686
  "step": 1130
687
  },
688
  {
689
+ "epoch": 0.28,
690
+ "learning_rate": 0.0062,
691
+ "loss": 4.3344,
692
  "step": 1140
693
  },
694
  {
695
+ "epoch": 0.28,
696
+ "learning_rate": 0.0061666666666666675,
697
+ "loss": 4.2081,
698
  "step": 1150
699
  },
700
  {
701
+ "epoch": 0.29,
702
+ "learning_rate": 0.006133333333333333,
703
+ "loss": 4.2703,
704
  "step": 1160
705
  },
706
  {
707
+ "epoch": 0.29,
708
+ "learning_rate": 0.0061,
709
+ "loss": 4.1241,
710
  "step": 1170
711
  },
712
  {
713
+ "epoch": 0.29,
714
+ "learning_rate": 0.006066666666666667,
715
+ "loss": 4.3127,
716
  "step": 1180
717
  },
718
  {
719
+ "epoch": 0.29,
720
+ "learning_rate": 0.006033333333333334,
721
+ "loss": 4.3554,
722
  "step": 1190
723
  },
724
  {
725
+ "epoch": 0.3,
726
+ "learning_rate": 0.006,
727
+ "loss": 4.1869,
728
  "step": 1200
729
  },
730
  {
731
+ "epoch": 0.3,
732
+ "learning_rate": 0.005966666666666667,
733
+ "loss": 4.1353,
734
  "step": 1210
735
  },
736
  {
737
+ "epoch": 0.3,
738
+ "learning_rate": 0.005933333333333334,
739
+ "loss": 4.2669,
740
  "step": 1220
741
  },
742
  {
743
+ "epoch": 0.3,
744
+ "learning_rate": 0.0059,
745
+ "loss": 4.36,
746
  "step": 1230
747
  },
748
  {
749
+ "epoch": 0.31,
750
+ "learning_rate": 0.005866666666666667,
751
+ "loss": 4.408,
752
  "step": 1240
753
  },
754
  {
755
+ "epoch": 0.31,
756
+ "learning_rate": 0.005833333333333334,
757
+ "loss": 4.281,
758
  "step": 1250
759
  },
760
  {
761
+ "epoch": 0.31,
762
+ "learning_rate": 0.0058,
763
+ "loss": 4.2868,
764
  "step": 1260
765
  },
766
  {
767
+ "epoch": 0.31,
768
+ "learning_rate": 0.0057666666666666665,
769
+ "loss": 4.2727,
770
  "step": 1270
771
  },
772
  {
773
+ "epoch": 0.32,
774
+ "learning_rate": 0.005733333333333333,
775
+ "loss": 4.4,
776
  "step": 1280
777
  },
778
  {
779
+ "epoch": 0.32,
780
+ "learning_rate": 0.005699999999999999,
781
+ "loss": 4.3952,
782
  "step": 1290
783
  },
784
  {
785
+ "epoch": 0.32,
786
+ "learning_rate": 0.005666666666666666,
787
+ "loss": 4.4584,
788
  "step": 1300
789
  },
790
  {
791
+ "epoch": 0.32,
792
+ "learning_rate": 0.005633333333333334,
793
+ "loss": 4.1049,
794
  "step": 1310
795
  },
796
  {
797
+ "epoch": 0.33,
798
+ "learning_rate": 0.005600000000000001,
799
+ "loss": 4.337,
800
  "step": 1320
801
  },
802
  {
803
+ "epoch": 0.33,
804
+ "learning_rate": 0.005566666666666667,
805
+ "loss": 4.1502,
806
  "step": 1330
807
  },
808
  {
809
+ "epoch": 0.33,
810
+ "learning_rate": 0.005533333333333334,
811
+ "loss": 4.4697,
812
  "step": 1340
813
  },
814
  {
815
+ "epoch": 0.33,
816
+ "learning_rate": 0.0055000000000000005,
817
+ "loss": 4.1858,
818
  "step": 1350
819
  },
820
  {
821
+ "epoch": 0.34,
822
+ "learning_rate": 0.0054666666666666665,
823
+ "loss": 4.2821,
824
  "step": 1360
825
  },
826
  {
827
+ "epoch": 0.34,
828
+ "learning_rate": 0.005433333333333333,
829
+ "loss": 4.1345,
830
  "step": 1370
831
  },
832
  {
833
+ "epoch": 0.34,
834
+ "learning_rate": 0.0054,
835
+ "loss": 4.1531,
836
  "step": 1380
837
  },
838
  {
839
+ "epoch": 0.34,
840
+ "learning_rate": 0.005366666666666666,
841
+ "loss": 4.4412,
842
  "step": 1390
843
  },
844
  {
845
+ "epoch": 0.35,
846
+ "learning_rate": 0.005333333333333333,
847
+ "loss": 4.3379,
848
  "step": 1400
849
  },
850
  {
851
+ "epoch": 0.35,
852
+ "learning_rate": 0.0053,
853
+ "loss": 4.3304,
854
  "step": 1410
855
  },
856
  {
857
+ "epoch": 0.35,
858
+ "learning_rate": 0.005266666666666666,
859
+ "loss": 4.2921,
860
  "step": 1420
861
  },
862
  {
863
+ "epoch": 0.35,
864
+ "learning_rate": 0.005233333333333333,
865
+ "loss": 4.4966,
866
  "step": 1430
867
  },
868
  {
869
+ "epoch": 0.36,
870
+ "learning_rate": 0.005200000000000001,
871
+ "loss": 4.4565,
872
  "step": 1440
873
  },
874
  {
875
+ "epoch": 0.36,
876
+ "learning_rate": 0.0051666666666666675,
877
+ "loss": 4.2774,
878
  "step": 1450
879
  },
880
  {
881
+ "epoch": 0.36,
882
+ "learning_rate": 0.0051333333333333335,
883
+ "loss": 4.1663,
884
  "step": 1460
885
  },
886
  {
887
+ "epoch": 0.36,
888
+ "learning_rate": 0.0051,
889
+ "loss": 4.1443,
890
  "step": 1470
891
  },
892
  {
893
+ "epoch": 0.37,
894
+ "learning_rate": 0.005066666666666667,
895
+ "loss": 4.2534,
896
  "step": 1480
897
  },
898
  {
899
+ "epoch": 0.37,
900
+ "learning_rate": 0.005033333333333333,
901
+ "loss": 4.1154,
902
  "step": 1490
903
  },
904
  {
905
+ "epoch": 0.37,
906
+ "learning_rate": 0.005,
907
+ "loss": 4.3159,
908
  "step": 1500
909
  },
910
  {
911
+ "epoch": 0.37,
912
+ "learning_rate": 0.004966666666666667,
913
+ "loss": 4.2337,
914
  "step": 1510
915
  },
916
  {
917
+ "epoch": 0.38,
918
+ "learning_rate": 0.004933333333333334,
919
+ "loss": 4.2562,
920
  "step": 1520
921
  },
922
  {
923
+ "epoch": 0.38,
924
+ "learning_rate": 0.0049,
925
+ "loss": 4.254,
926
  "step": 1530
927
  },
928
  {
929
+ "epoch": 0.38,
930
+ "learning_rate": 0.004866666666666667,
931
+ "loss": 4.1052,
932
  "step": 1540
933
  },
934
  {
935
+ "epoch": 0.38,
936
+ "learning_rate": 0.004833333333333334,
937
+ "loss": 4.0686,
938
  "step": 1550
939
  },
940
  {
941
+ "epoch": 0.39,
942
+ "learning_rate": 0.0048,
943
+ "loss": 4.2443,
944
  "step": 1560
945
  },
946
  {
947
+ "epoch": 0.39,
948
+ "learning_rate": 0.004766666666666667,
949
+ "loss": 4.3452,
950
  "step": 1570
951
  },
952
  {
953
+ "epoch": 0.39,
954
+ "learning_rate": 0.004733333333333333,
955
+ "loss": 4.2868,
956
  "step": 1580
957
  },
958
  {
959
+ "epoch": 0.39,
960
+ "learning_rate": 0.0047,
961
+ "loss": 4.3075,
962
  "step": 1590
963
  },
964
  {
965
+ "epoch": 0.4,
966
+ "learning_rate": 0.004666666666666667,
967
+ "loss": 4.1933,
968
  "step": 1600
969
  },
970
  {
971
+ "epoch": 0.4,
972
+ "learning_rate": 0.004633333333333333,
973
+ "loss": 4.1516,
974
  "step": 1610
975
  },
976
  {
977
+ "epoch": 0.4,
978
+ "learning_rate": 0.0046,
979
+ "loss": 4.2303,
980
  "step": 1620
981
  },
982
  {
983
+ "epoch": 0.4,
984
+ "learning_rate": 0.004566666666666667,
985
+ "loss": 4.1249,
986
  "step": 1630
987
  },
988
  {
989
+ "epoch": 0.41,
990
+ "learning_rate": 0.004533333333333333,
991
+ "loss": 4.3501,
992
  "step": 1640
993
  },
994
  {
995
+ "epoch": 0.41,
996
+ "learning_rate": 0.0045000000000000005,
997
+ "loss": 4.2947,
998
  "step": 1650
999
  },
1000
  {
1001
+ "epoch": 0.41,
1002
+ "learning_rate": 0.0044666666666666665,
1003
+ "loss": 4.1516,
1004
  "step": 1660
1005
  },
1006
  {
1007
+ "epoch": 0.41,
1008
+ "learning_rate": 0.004433333333333333,
1009
+ "loss": 4.2086,
1010
  "step": 1670
1011
  },
1012
  {
1013
+ "epoch": 0.42,
1014
+ "learning_rate": 0.0044,
1015
+ "loss": 4.2613,
1016
  "step": 1680
1017
  },
1018
  {
1019
+ "epoch": 0.42,
1020
+ "learning_rate": 0.004366666666666666,
1021
+ "loss": 4.2706,
1022
  "step": 1690
1023
  },
1024
  {
1025
+ "epoch": 0.42,
1026
+ "learning_rate": 0.004333333333333334,
1027
+ "loss": 4.0215,
1028
  "step": 1700
1029
  },
1030
  {
1031
+ "epoch": 0.42,
1032
+ "learning_rate": 0.0043,
1033
+ "loss": 4.3137,
1034
  "step": 1710
1035
  },
1036
  {
1037
+ "epoch": 0.42,
1038
+ "learning_rate": 0.004266666666666667,
1039
+ "loss": 4.2749,
1040
  "step": 1720
1041
  },
1042
  {
1043
+ "epoch": 0.43,
1044
+ "learning_rate": 0.004233333333333334,
1045
+ "loss": 4.2233,
1046
  "step": 1730
1047
  },
1048
  {
1049
+ "epoch": 0.43,
1050
+ "learning_rate": 0.0042,
1051
+ "loss": 3.9976,
1052
  "step": 1740
1053
  },
1054
  {
1055
+ "epoch": 0.43,
1056
+ "learning_rate": 0.004166666666666667,
1057
+ "loss": 4.1726,
1058
  "step": 1750
1059
  },
1060
  {
1061
+ "epoch": 0.43,
1062
+ "learning_rate": 0.0041333333333333335,
1063
+ "loss": 4.1646,
1064
  "step": 1760
1065
  },
1066
  {
1067
+ "epoch": 0.44,
1068
+ "learning_rate": 0.0040999999999999995,
1069
+ "loss": 4.2132,
1070
  "step": 1770
1071
  },
1072
  {
1073
+ "epoch": 0.44,
1074
+ "learning_rate": 0.004066666666666667,
1075
+ "loss": 3.9604,
1076
  "step": 1780
1077
  },
1078
  {
1079
+ "epoch": 0.44,
1080
+ "learning_rate": 0.004033333333333333,
1081
+ "loss": 4.2944,
1082
  "step": 1790
1083
  },
1084
  {
1085
+ "epoch": 0.44,
1086
+ "learning_rate": 0.004,
1087
+ "loss": 4.1396,
1088
  "step": 1800
1089
  },
1090
  {
1091
+ "epoch": 0.45,
1092
+ "learning_rate": 0.003966666666666667,
1093
+ "loss": 4.2248,
1094
  "step": 1810
1095
  },
1096
  {
1097
+ "epoch": 0.45,
1098
+ "learning_rate": 0.003933333333333333,
1099
+ "loss": 4.204,
1100
  "step": 1820
1101
  },
1102
  {
1103
+ "epoch": 0.45,
1104
+ "learning_rate": 0.0039000000000000003,
1105
+ "loss": 4.256,
1106
  "step": 1830
1107
  },
1108
  {
1109
+ "epoch": 0.45,
1110
+ "learning_rate": 0.0038666666666666667,
1111
+ "loss": 4.2905,
1112
  "step": 1840
1113
  },
1114
  {
1115
+ "epoch": 0.46,
1116
+ "learning_rate": 0.0038333333333333336,
1117
+ "loss": 4.1794,
1118
  "step": 1850
1119
  },
1120
  {
1121
+ "epoch": 0.46,
1122
+ "learning_rate": 0.0038,
1123
+ "loss": 4.2896,
1124
  "step": 1860
1125
  },
1126
  {
1127
+ "epoch": 0.46,
1128
+ "learning_rate": 0.0037666666666666664,
1129
+ "loss": 4.303,
1130
  "step": 1870
1131
  },
1132
  {
1133
+ "epoch": 0.46,
1134
+ "learning_rate": 0.0037333333333333337,
1135
+ "loss": 4.1186,
1136
  "step": 1880
1137
  },
1138
  {
1139
+ "epoch": 0.47,
1140
+ "learning_rate": 0.0037,
1141
+ "loss": 4.1164,
1142
  "step": 1890
1143
  },
1144
  {
1145
+ "epoch": 0.47,
1146
+ "learning_rate": 0.0036666666666666666,
1147
+ "loss": 4.226,
1148
  "step": 1900
1149
  },
1150
  {
1151
+ "epoch": 0.47,
1152
+ "learning_rate": 0.0036333333333333335,
1153
+ "loss": 4.2415,
1154
  "step": 1910
1155
  },
1156
  {
1157
+ "epoch": 0.47,
1158
+ "learning_rate": 0.0036,
1159
+ "loss": 4.1407,
1160
  "step": 1920
1161
  },
1162
  {
1163
+ "epoch": 0.48,
1164
+ "learning_rate": 0.0035666666666666668,
1165
+ "loss": 4.3969,
1166
  "step": 1930
1167
  },
1168
  {
1169
+ "epoch": 0.48,
1170
+ "learning_rate": 0.003533333333333333,
1171
+ "loss": 4.0781,
1172
  "step": 1940
1173
  },
1174
  {
1175
+ "epoch": 0.48,
1176
+ "learning_rate": 0.0034999999999999996,
1177
+ "loss": 4.1446,
1178
  "step": 1950
1179
  },
1180
  {
1181
+ "epoch": 0.48,
1182
+ "learning_rate": 0.003466666666666667,
1183
+ "loss": 4.4508,
1184
  "step": 1960
1185
  },
1186
  {
1187
+ "epoch": 0.49,
1188
+ "learning_rate": 0.0034333333333333334,
1189
+ "loss": 4.044,
1190
  "step": 1970
1191
  },
1192
  {
1193
+ "epoch": 0.49,
1194
+ "learning_rate": 0.0034000000000000002,
1195
+ "loss": 4.3149,
1196
  "step": 1980
1197
  },
1198
  {
1199
+ "epoch": 0.49,
1200
+ "learning_rate": 0.0033666666666666667,
1201
+ "loss": 4.0681,
1202
  "step": 1990
1203
  },
1204
  {
1205
+ "epoch": 0.49,
1206
+ "learning_rate": 0.003333333333333333,
1207
+ "loss": 4.3796,
1208
  "step": 2000
1209
  },
1210
  {
1211
+ "epoch": 0.5,
1212
+ "learning_rate": 0.0033000000000000004,
1213
+ "loss": 4.1961,
1214
  "step": 2010
1215
  },
1216
  {
1217
+ "epoch": 0.5,
1218
+ "learning_rate": 0.003266666666666667,
1219
+ "loss": 4.2311,
1220
  "step": 2020
1221
  },
1222
  {
1223
+ "epoch": 0.5,
1224
+ "learning_rate": 0.0032333333333333333,
1225
+ "loss": 4.0501,
1226
  "step": 2030
1227
  },
1228
  {
1229
+ "epoch": 0.5,
1230
+ "learning_rate": 0.0032,
1231
+ "loss": 4.3799,
1232
  "step": 2040
1233
  },
1234
  {
1235
+ "epoch": 0.51,
1236
+ "learning_rate": 0.0031666666666666666,
1237
+ "loss": 4.299,
1238
  "step": 2050
1239
  },
1240
  {
1241
+ "epoch": 0.51,
1242
+ "learning_rate": 0.0031333333333333335,
1243
+ "loss": 4.4141,
1244
  "step": 2060
1245
  },
1246
  {
1247
+ "epoch": 0.51,
1248
+ "learning_rate": 0.0031,
1249
+ "loss": 4.17,
1250
  "step": 2070
1251
  },
1252
  {
1253
+ "epoch": 0.51,
1254
+ "learning_rate": 0.0030666666666666663,
1255
+ "loss": 4.0871,
1256
  "step": 2080
1257
  },
1258
  {
1259
+ "epoch": 0.52,
1260
+ "learning_rate": 0.0030333333333333336,
1261
+ "loss": 3.8797,
1262
  "step": 2090
1263
  },
1264
  {
1265
+ "epoch": 0.52,
1266
+ "learning_rate": 0.003,
1267
+ "loss": 4.1216,
1268
  "step": 2100
1269
  },
1270
  {
1271
+ "epoch": 0.52,
1272
+ "learning_rate": 0.002966666666666667,
1273
+ "loss": 4.2665,
1274
  "step": 2110
1275
  },
1276
  {
1277
+ "epoch": 0.52,
1278
+ "learning_rate": 0.0029333333333333334,
1279
+ "loss": 4.1943,
1280
  "step": 2120
1281
  },
1282
  {
1283
+ "epoch": 0.53,
1284
+ "learning_rate": 0.0029,
1285
+ "loss": 4.2563,
1286
  "step": 2130
1287
  },
1288
  {
1289
+ "epoch": 0.53,
1290
+ "learning_rate": 0.0028666666666666667,
1291
+ "loss": 4.1975,
1292
  "step": 2140
1293
  },
1294
  {
1295
+ "epoch": 0.53,
1296
+ "learning_rate": 0.002833333333333333,
1297
+ "loss": 4.1799,
1298
  "step": 2150
1299
  },
1300
  {
1301
+ "epoch": 0.53,
1302
+ "learning_rate": 0.0028000000000000004,
1303
+ "loss": 4.0881,
1304
  "step": 2160
1305
  },
1306
  {
1307
+ "epoch": 0.54,
1308
+ "learning_rate": 0.002766666666666667,
1309
+ "loss": 4.1796,
1310
  "step": 2170
1311
  },
1312
  {
1313
+ "epoch": 0.54,
1314
+ "learning_rate": 0.0027333333333333333,
1315
+ "loss": 4.1893,
1316
  "step": 2180
1317
  },
1318
  {
1319
+ "epoch": 0.54,
1320
+ "learning_rate": 0.0027,
1321
+ "loss": 4.2846,
1322
  "step": 2190
1323
  },
1324
  {
1325
+ "epoch": 0.54,
1326
+ "learning_rate": 0.0026666666666666666,
1327
+ "loss": 4.2808,
1328
  "step": 2200
1329
  },
1330
  {
1331
+ "epoch": 0.55,
1332
+ "learning_rate": 0.002633333333333333,
1333
+ "loss": 4.074,
1334
  "step": 2210
1335
  },
1336
  {
1337
+ "epoch": 0.55,
1338
+ "learning_rate": 0.0026000000000000003,
1339
+ "loss": 4.2645,
1340
  "step": 2220
1341
  },
1342
  {
1343
+ "epoch": 0.55,
1344
+ "learning_rate": 0.0025666666666666667,
1345
+ "loss": 4.2595,
1346
  "step": 2230
1347
  },
1348
  {
1349
+ "epoch": 0.55,
1350
+ "learning_rate": 0.0025333333333333336,
1351
+ "loss": 4.3327,
1352
  "step": 2240
1353
  },
1354
  {
1355
+ "epoch": 0.56,
1356
+ "learning_rate": 0.0025,
1357
+ "loss": 4.3392,
1358
  "step": 2250
1359
  },
1360
  {
1361
+ "epoch": 0.56,
1362
+ "learning_rate": 0.002466666666666667,
1363
+ "loss": 4.1171,
1364
  "step": 2260
1365
  },
1366
  {
1367
+ "epoch": 0.56,
1368
+ "learning_rate": 0.0024333333333333334,
1369
+ "loss": 4.1018,
1370
  "step": 2270
1371
  },
1372
  {
1373
+ "epoch": 0.56,
1374
+ "learning_rate": 0.0024,
1375
+ "loss": 4.0992,
1376
  "step": 2280
1377
  },
1378
  {
1379
+ "epoch": 0.57,
1380
+ "learning_rate": 0.0023666666666666667,
1381
+ "loss": 4.1299,
1382
  "step": 2290
1383
  },
1384
  {
1385
+ "epoch": 0.57,
1386
+ "learning_rate": 0.0023333333333333335,
1387
+ "loss": 4.2318,
1388
  "step": 2300
1389
  },
1390
  {
1391
+ "epoch": 0.57,
1392
+ "learning_rate": 0.0023,
1393
+ "loss": 4.0517,
1394
  "step": 2310
1395
  },
1396
  {
1397
+ "epoch": 0.57,
1398
+ "learning_rate": 0.0022666666666666664,
1399
+ "loss": 4.2263,
1400
  "step": 2320
1401
  },
1402
  {
1403
+ "epoch": 0.58,
1404
+ "learning_rate": 0.0022333333333333333,
1405
+ "loss": 4.1293,
1406
  "step": 2330
1407
  },
1408
  {
1409
+ "epoch": 0.58,
1410
+ "learning_rate": 0.0022,
1411
+ "loss": 4.0999,
1412
  "step": 2340
1413
  },
1414
  {
1415
+ "epoch": 0.58,
1416
+ "learning_rate": 0.002166666666666667,
1417
+ "loss": 3.985,
1418
  "step": 2350
1419
  },
1420
  {
1421
+ "epoch": 0.58,
1422
+ "learning_rate": 0.0021333333333333334,
1423
+ "loss": 4.3614,
1424
  "step": 2360
1425
  },
1426
  {
1427
+ "epoch": 0.59,
1428
+ "learning_rate": 0.0021,
1429
+ "loss": 4.1708,
1430
  "step": 2370
1431
  },
1432
  {
1433
+ "epoch": 0.59,
1434
+ "learning_rate": 0.0020666666666666667,
1435
+ "loss": 4.1089,
1436
  "step": 2380
1437
  },
1438
  {
1439
+ "epoch": 0.59,
1440
+ "learning_rate": 0.0020333333333333336,
1441
+ "loss": 4.2235,
1442
  "step": 2390
1443
  },
1444
  {
1445
+ "epoch": 0.59,
1446
+ "learning_rate": 0.002,
1447
+ "loss": 4.0478,
1448
  "step": 2400
1449
  },
1450
  {
1451
+ "epoch": 0.6,
1452
+ "learning_rate": 0.0019666666666666665,
1453
+ "loss": 4.1452,
1454
  "step": 2410
1455
  },
1456
  {
1457
+ "epoch": 0.6,
1458
+ "learning_rate": 0.0019333333333333333,
1459
+ "loss": 4.2387,
1460
  "step": 2420
1461
  },
1462
  {
1463
+ "epoch": 0.6,
1464
+ "learning_rate": 0.0019,
1465
+ "loss": 4.0896,
1466
  "step": 2430
1467
  },
1468
  {
1469
+ "epoch": 0.6,
1470
+ "learning_rate": 0.0018666666666666669,
1471
+ "loss": 4.1023,
1472
  "step": 2440
1473
  },
1474
  {
1475
+ "epoch": 0.61,
1476
+ "learning_rate": 0.0018333333333333333,
1477
+ "loss": 4.1754,
1478
  "step": 2450
1479
  },
1480
  {
1481
+ "epoch": 0.61,
1482
+ "learning_rate": 0.0018,
1483
+ "loss": 4.3248,
1484
  "step": 2460
1485
  },
1486
  {
1487
+ "epoch": 0.61,
1488
+ "learning_rate": 0.0017666666666666666,
1489
+ "loss": 4.1434,
1490
  "step": 2470
1491
  },
1492
  {
1493
+ "epoch": 0.61,
1494
+ "learning_rate": 0.0017333333333333335,
1495
+ "loss": 4.1209,
1496
  "step": 2480
1497
  },
1498
  {
1499
+ "epoch": 0.62,
1500
+ "learning_rate": 0.0017000000000000001,
1501
+ "loss": 4.1029,
1502
  "step": 2490
1503
  },
1504
  {
1505
+ "epoch": 0.62,
1506
+ "learning_rate": 0.0016666666666666666,
1507
+ "loss": 4.2195,
1508
  "step": 2500
1509
  },
1510
  {
1511
+ "epoch": 0.62,
1512
+ "learning_rate": 0.0016333333333333334,
1513
+ "loss": 4.3043,
1514
  "step": 2510
1515
  },
1516
  {
1517
+ "epoch": 0.62,
1518
+ "learning_rate": 0.0016,
1519
+ "loss": 4.2903,
1520
  "step": 2520
1521
  },
1522
  {
1523
+ "epoch": 0.63,
1524
+ "learning_rate": 0.0015666666666666667,
1525
+ "loss": 4.1647,
1526
  "step": 2530
1527
  },
1528
  {
1529
+ "epoch": 0.63,
1530
+ "learning_rate": 0.0015333333333333332,
1531
+ "loss": 4.3795,
1532
  "step": 2540
1533
  },
1534
  {
1535
+ "epoch": 0.63,
1536
+ "learning_rate": 0.0015,
1537
+ "loss": 4.1371,
1538
  "step": 2550
1539
  },
1540
  {
1541
+ "epoch": 0.63,
1542
+ "learning_rate": 0.0014666666666666667,
1543
+ "loss": 4.1079,
1544
  "step": 2560
1545
  },
1546
  {
1547
+ "epoch": 0.63,
1548
+ "learning_rate": 0.0014333333333333333,
1549
+ "loss": 4.3023,
1550
  "step": 2570
1551
  },
1552
  {
1553
+ "epoch": 0.64,
1554
+ "learning_rate": 0.0014000000000000002,
1555
+ "loss": 4.4251,
1556
  "step": 2580
1557
  },
1558
  {
1559
+ "epoch": 0.64,
1560
+ "learning_rate": 0.0013666666666666666,
1561
+ "loss": 4.1342,
1562
  "step": 2590
1563
  },
1564
  {
1565
+ "epoch": 0.64,
1566
+ "learning_rate": 0.0013333333333333333,
1567
+ "loss": 4.1228,
1568
  "step": 2600
1569
  },
1570
  {
1571
+ "epoch": 0.64,
1572
+ "learning_rate": 0.0013000000000000002,
1573
+ "loss": 4.2103,
1574
  "step": 2610
1575
  },
1576
  {
1577
+ "epoch": 0.65,
1578
+ "learning_rate": 0.0012666666666666668,
1579
+ "loss": 4.1833,
1580
  "step": 2620
1581
  },
1582
  {
1583
+ "epoch": 0.65,
1584
+ "learning_rate": 0.0012333333333333335,
1585
+ "loss": 4.2219,
1586
  "step": 2630
1587
  },
1588
  {
1589
+ "epoch": 0.65,
1590
+ "learning_rate": 0.0012,
1591
+ "loss": 4.1666,
1592
  "step": 2640
1593
  },
1594
  {
1595
+ "epoch": 0.65,
1596
+ "learning_rate": 0.0011666666666666668,
1597
+ "loss": 3.9958,
1598
  "step": 2650
1599
  },
1600
  {
1601
+ "epoch": 0.66,
1602
+ "learning_rate": 0.0011333333333333332,
1603
+ "loss": 4.1797,
1604
  "step": 2660
1605
  },
1606
  {
1607
+ "epoch": 0.66,
1608
+ "learning_rate": 0.0011,
1609
+ "loss": 4.1747,
1610
  "step": 2670
1611
  },
1612
  {
1613
+ "epoch": 0.66,
1614
+ "learning_rate": 0.0010666666666666667,
1615
+ "loss": 4.2611,
1616
  "step": 2680
1617
  },
1618
  {
1619
+ "epoch": 0.66,
1620
+ "learning_rate": 0.0010333333333333334,
1621
+ "loss": 4.1918,
1622
  "step": 2690
1623
  },
1624
  {
1625
+ "epoch": 0.67,
1626
+ "learning_rate": 0.001,
1627
+ "loss": 3.9829,
1628
  "step": 2700
1629
  },
1630
  {
1631
+ "epoch": 0.67,
1632
+ "learning_rate": 0.0009666666666666667,
1633
+ "loss": 3.9342,
1634
  "step": 2710
1635
  },
1636
  {
1637
+ "epoch": 0.67,
1638
+ "learning_rate": 0.0009333333333333334,
1639
+ "loss": 4.1757,
1640
  "step": 2720
1641
  },
1642
  {
1643
+ "epoch": 0.67,
1644
+ "learning_rate": 0.0009,
1645
+ "loss": 4.2401,
1646
  "step": 2730
1647
  },
1648
  {
1649
+ "epoch": 0.68,
1650
+ "learning_rate": 0.0008666666666666667,
1651
+ "loss": 4.1036,
1652
  "step": 2740
1653
  },
1654
  {
1655
+ "epoch": 0.68,
1656
+ "learning_rate": 0.0008333333333333333,
1657
+ "loss": 4.1545,
1658
  "step": 2750
1659
  },
1660
  {
1661
+ "epoch": 0.68,
1662
+ "learning_rate": 0.0008,
1663
+ "loss": 4.0326,
1664
  "step": 2760
1665
  },
1666
  {
1667
+ "epoch": 0.68,
1668
+ "learning_rate": 0.0007666666666666666,
1669
+ "loss": 4.139,
1670
  "step": 2770
1671
  },
1672
  {
1673
+ "epoch": 0.69,
1674
+ "learning_rate": 0.0007333333333333333,
1675
+ "loss": 4.0362,
1676
  "step": 2780
1677
  },
1678
  {
1679
+ "epoch": 0.69,
1680
+ "learning_rate": 0.0007000000000000001,
1681
+ "loss": 4.04,
1682
  "step": 2790
1683
  },
1684
  {
1685
+ "epoch": 0.69,
1686
+ "learning_rate": 0.0006666666666666666,
1687
+ "loss": 4.0126,
1688
  "step": 2800
1689
  },
1690
  {
1691
+ "epoch": 0.69,
1692
+ "learning_rate": 0.0006333333333333334,
1693
+ "loss": 4.1821,
1694
  "step": 2810
1695
  },
1696
  {
1697
+ "epoch": 0.7,
1698
+ "learning_rate": 0.0006,
1699
+ "loss": 4.3377,
1700
  "step": 2820
1701
  },
1702
  {
1703
+ "epoch": 0.7,
1704
+ "learning_rate": 0.0005666666666666666,
1705
+ "loss": 4.0445,
1706
  "step": 2830
1707
  },
1708
  {
1709
+ "epoch": 0.7,
1710
+ "learning_rate": 0.0005333333333333334,
1711
+ "loss": 4.3594,
1712
  "step": 2840
1713
  },
1714
  {
1715
+ "epoch": 0.7,
1716
+ "learning_rate": 0.0005,
1717
+ "loss": 4.2843,
1718
  "step": 2850
1719
  },
1720
  {
1721
+ "epoch": 0.71,
1722
+ "learning_rate": 0.0004666666666666667,
1723
+ "loss": 4.4333,
1724
  "step": 2860
1725
  },
1726
  {
1727
+ "epoch": 0.71,
1728
+ "learning_rate": 0.00043333333333333337,
1729
+ "loss": 4.1602,
1730
  "step": 2870
1731
  },
1732
  {
1733
+ "epoch": 0.71,
1734
+ "learning_rate": 0.0004,
1735
+ "loss": 4.1627,
1736
  "step": 2880
1737
  },
1738
  {
1739
+ "epoch": 0.71,
1740
+ "learning_rate": 0.00036666666666666667,
1741
+ "loss": 4.3198,
1742
  "step": 2890
1743
  },
1744
  {
1745
+ "epoch": 0.72,
1746
+ "learning_rate": 0.0003333333333333333,
1747
+ "loss": 4.1868,
1748
  "step": 2900
1749
  },
1750
  {
1751
+ "epoch": 0.72,
1752
+ "learning_rate": 0.0003,
1753
+ "loss": 3.9025,
1754
  "step": 2910
1755
  },
1756
  {
1757
+ "epoch": 0.72,
1758
+ "learning_rate": 0.0002666666666666667,
1759
+ "loss": 4.3471,
1760
  "step": 2920
1761
  },
1762
  {
1763
+ "epoch": 0.72,
1764
+ "learning_rate": 0.00023333333333333336,
1765
+ "loss": 4.0453,
1766
  "step": 2930
1767
  },
1768
  {
1769
+ "epoch": 0.73,
1770
+ "learning_rate": 0.0002,
1771
+ "loss": 4.2165,
1772
  "step": 2940
1773
  },
1774
  {
1775
+ "epoch": 0.73,
1776
+ "learning_rate": 0.00016666666666666666,
1777
+ "loss": 4.297,
1778
  "step": 2950
1779
  },
1780
  {
1781
+ "epoch": 0.73,
1782
+ "learning_rate": 0.00013333333333333334,
1783
+ "loss": 3.9377,
1784
  "step": 2960
1785
  },
1786
  {
1787
+ "epoch": 0.73,
1788
+ "learning_rate": 0.0001,
1789
+ "loss": 4.0296,
1790
  "step": 2970
1791
  },
1792
  {
1793
+ "epoch": 0.74,
1794
+ "learning_rate": 6.666666666666667e-05,
1795
+ "loss": 4.1674,
1796
  "step": 2980
1797
  },
1798
  {
1799
+ "epoch": 0.74,
1800
+ "learning_rate": 3.3333333333333335e-05,
1801
+ "loss": 4.0586,
1802
  "step": 2990
1803
  },
1804
  {
1805
+ "epoch": 0.74,
1806
+ "learning_rate": 0.0,
1807
+ "loss": 4.2968,
1808
  "step": 3000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1809
  }
1810
  ],
1811
+ "max_steps": 3000,
1812
+ "num_train_epochs": 1,
1813
+ "total_flos": 4.15988654800896e+17,
1814
  "trial_name": null,
1815
  "trial_params": null
1816
  }
xiaowo/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0bab6fefeccf33ecae53947b1c444bd9a1f0f1f040993b12582eba666e374911
3
  size 3771
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:45db8b0baa6cce0a1cc99abc54a0516e47864f3b39101b02129435843b276a60
3
  size 3771