ErrorAI commited on
Commit
9bef253
·
verified ·
1 Parent(s): 4730888

Training in progress, step 1194, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:96cfef9ad93952ac6fafd07427378061a7195d713d4575de3f8f5ae7c6426e19
3
  size 27024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:120382d75a76dc9aae3ecacf2b16e667269b012ea8dc72d3830a79a45451be4c
3
  size 27024
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2fe92942178737412c7f729156d4a6f2b5b3d679347079a9ee7d0d41de3130c8
3
  size 64038
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fcbd73225251960c958ae2469a30aedc9dd24fb6c97a26c4cf272dd03d0488fc
3
  size 64038
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:34f04c4cb15d165bd3a264948bba4a26b547f526d3995c1040c8e5e584b819c1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8d95029bb41dde4a999ba2c809499dfbab9677cd9a713289e762e38ab1141bf4
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8641e18356c753cad2c329cc6354f84639c6913a529ac2fe8db9a7ca9f118775
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b824446a00432ccc1e96d92ab06963b8ded78c8458a01706f53dabd26621c714
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.1301610661434061,
5
  "eval_steps": 398,
6
- "global_step": 796,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5603,6 +5603,2800 @@
5603
  "eval_samples_per_second": 355.912,
5604
  "eval_steps_per_second": 178.025,
5605
  "step": 796
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5606
  }
5607
  ],
5608
  "logging_steps": 1,
@@ -5622,7 +8416,7 @@
5622
  "attributes": {}
5623
  }
5624
  },
5625
- "total_flos": 10325330165760.0,
5626
  "train_batch_size": 2,
5627
  "trial_name": null,
5628
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.19524159921510914,
5
  "eval_steps": 398,
6
+ "global_step": 1194,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5603
  "eval_samples_per_second": 355.912,
5604
  "eval_steps_per_second": 178.025,
5605
  "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.13032458507072195,
5609
+ "grad_norm": 0.08599609136581421,
5610
+ "learning_rate": 0.00010059650139677765,
5611
+ "loss": 10.34,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.13048810399803779,
5616
+ "grad_norm": 0.060881245881319046,
5617
+ "learning_rate": 0.00010039766890801677,
5618
+ "loss": 10.3459,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.13065162292535362,
5623
+ "grad_norm": 0.06616215407848358,
5624
+ "learning_rate": 0.00010019883484705851,
5625
+ "loss": 10.3435,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.13081514185266946,
5630
+ "grad_norm": 0.07355780899524689,
5631
+ "learning_rate": 0.0001,
5632
+ "loss": 10.3455,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.1309786607799853,
5637
+ "grad_norm": 0.09209233522415161,
5638
+ "learning_rate": 9.980116515294151e-05,
5639
+ "loss": 10.346,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.13114217970730113,
5644
+ "grad_norm": 0.1081072986125946,
5645
+ "learning_rate": 9.960233109198327e-05,
5646
+ "loss": 10.3553,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.13130569863461697,
5651
+ "grad_norm": 0.06916413456201553,
5652
+ "learning_rate": 9.940349860322237e-05,
5653
+ "loss": 10.3381,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.1314692175619328,
5658
+ "grad_norm": 0.047468386590480804,
5659
+ "learning_rate": 9.920466847274979e-05,
5660
+ "loss": 10.3494,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.13163273648924864,
5665
+ "grad_norm": 0.11021769791841507,
5666
+ "learning_rate": 9.900584148664704e-05,
5667
+ "loss": 10.3441,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.13179625541656448,
5672
+ "grad_norm": 0.07369951158761978,
5673
+ "learning_rate": 9.880701843098335e-05,
5674
+ "loss": 10.3417,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.13195977434388032,
5679
+ "grad_norm": 0.06742331385612488,
5680
+ "learning_rate": 9.860820009181232e-05,
5681
+ "loss": 10.3512,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.13212329327119615,
5686
+ "grad_norm": 0.08016981184482574,
5687
+ "learning_rate": 9.840938725516889e-05,
5688
+ "loss": 10.3463,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.132286812198512,
5693
+ "grad_norm": 0.07211664319038391,
5694
+ "learning_rate": 9.821058070706632e-05,
5695
+ "loss": 10.3449,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.13245033112582782,
5700
+ "grad_norm": 0.07631465047597885,
5701
+ "learning_rate": 9.801178123349298e-05,
5702
+ "loss": 10.347,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.13261385005314366,
5707
+ "grad_norm": 0.0600840263068676,
5708
+ "learning_rate": 9.781298962040922e-05,
5709
+ "loss": 10.3396,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.1327773689804595,
5714
+ "grad_norm": 0.1150350272655487,
5715
+ "learning_rate": 9.761420665374437e-05,
5716
+ "loss": 10.3351,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.13294088790777533,
5721
+ "grad_norm": 0.0911078006029129,
5722
+ "learning_rate": 9.741543311939356e-05,
5723
+ "loss": 10.3427,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.13310440683509117,
5728
+ "grad_norm": 0.08850537985563278,
5729
+ "learning_rate": 9.721666980321459e-05,
5730
+ "loss": 10.348,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.133267925762407,
5735
+ "grad_norm": 0.07637340575456619,
5736
+ "learning_rate": 9.701791749102495e-05,
5737
+ "loss": 10.3475,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.13343144468972284,
5742
+ "grad_norm": 0.0791415199637413,
5743
+ "learning_rate": 9.681917696859854e-05,
5744
+ "loss": 10.3489,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.13359496361703868,
5749
+ "grad_norm": 0.10085449367761612,
5750
+ "learning_rate": 9.662044902166275e-05,
5751
+ "loss": 10.3404,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.13375848254435452,
5756
+ "grad_norm": 0.06288623064756393,
5757
+ "learning_rate": 9.642173443589507e-05,
5758
+ "loss": 10.3518,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.13392200147167035,
5763
+ "grad_norm": 0.06273672729730606,
5764
+ "learning_rate": 9.622303399692038e-05,
5765
+ "loss": 10.3437,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.1340855203989862,
5770
+ "grad_norm": 0.07121649384498596,
5771
+ "learning_rate": 9.602434849030745e-05,
5772
+ "loss": 10.3537,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.13424903932630203,
5777
+ "grad_norm": 0.0698346421122551,
5778
+ "learning_rate": 9.582567870156618e-05,
5779
+ "loss": 10.3466,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.13441255825361786,
5784
+ "grad_norm": 0.05925373360514641,
5785
+ "learning_rate": 9.562702541614416e-05,
5786
+ "loss": 10.3394,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.1345760771809337,
5791
+ "grad_norm": 0.057984985411167145,
5792
+ "learning_rate": 9.54283894194239e-05,
5793
+ "loss": 10.3468,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.13473959610824954,
5798
+ "grad_norm": 0.0611608549952507,
5799
+ "learning_rate": 9.522977149671942e-05,
5800
+ "loss": 10.3511,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.13490311503556537,
5805
+ "grad_norm": 0.09152734279632568,
5806
+ "learning_rate": 9.503117243327337e-05,
5807
+ "loss": 10.3458,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.1350666339628812,
5812
+ "grad_norm": 0.07080190628767014,
5813
+ "learning_rate": 9.483259301425381e-05,
5814
+ "loss": 10.3435,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.13523015289019705,
5819
+ "grad_norm": 0.067464180290699,
5820
+ "learning_rate": 9.463403402475108e-05,
5821
+ "loss": 10.3399,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.13539367181751288,
5826
+ "grad_norm": 0.10405400395393372,
5827
+ "learning_rate": 9.443549624977487e-05,
5828
+ "loss": 10.3379,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.13555719074482872,
5833
+ "grad_norm": 0.0796792209148407,
5834
+ "learning_rate": 9.423698047425095e-05,
5835
+ "loss": 10.3417,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.13572070967214456,
5840
+ "grad_norm": 0.06306777894496918,
5841
+ "learning_rate": 9.403848748301802e-05,
5842
+ "loss": 10.3452,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.1358842285994604,
5847
+ "grad_norm": 0.07225450873374939,
5848
+ "learning_rate": 9.384001806082483e-05,
5849
+ "loss": 10.3481,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.13604774752677623,
5854
+ "grad_norm": 0.043913766741752625,
5855
+ "learning_rate": 9.364157299232692e-05,
5856
+ "loss": 10.3442,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.13621126645409207,
5861
+ "grad_norm": 0.08979449421167374,
5862
+ "learning_rate": 9.344315306208348e-05,
5863
+ "loss": 10.3396,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.1363747853814079,
5868
+ "grad_norm": 0.13488726317882538,
5869
+ "learning_rate": 9.324475905455439e-05,
5870
+ "loss": 10.3556,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.13653830430872374,
5875
+ "grad_norm": 0.0586860291659832,
5876
+ "learning_rate": 9.304639175409698e-05,
5877
+ "loss": 10.3479,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.13670182323603958,
5882
+ "grad_norm": 0.10774936527013779,
5883
+ "learning_rate": 9.284805194496305e-05,
5884
+ "loss": 10.3387,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.1368653421633554,
5889
+ "grad_norm": 0.08792544156312943,
5890
+ "learning_rate": 9.264974041129572e-05,
5891
+ "loss": 10.3466,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.13702886109067125,
5896
+ "grad_norm": 0.06584392488002777,
5897
+ "learning_rate": 9.245145793712623e-05,
5898
+ "loss": 10.3492,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.1371923800179871,
5903
+ "grad_norm": 0.08722234517335892,
5904
+ "learning_rate": 9.225320530637104e-05,
5905
+ "loss": 10.3575,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.13735589894530292,
5910
+ "grad_norm": 0.07480508834123611,
5911
+ "learning_rate": 9.205498330282856e-05,
5912
+ "loss": 10.3442,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.13751941787261876,
5917
+ "grad_norm": 0.11431939899921417,
5918
+ "learning_rate": 9.185679271017613e-05,
5919
+ "loss": 10.3433,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.1376829367999346,
5924
+ "grad_norm": 0.08573208004236221,
5925
+ "learning_rate": 9.165863431196693e-05,
5926
+ "loss": 10.3478,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.13784645572725043,
5931
+ "grad_norm": 0.06913722306489944,
5932
+ "learning_rate": 9.146050889162679e-05,
5933
+ "loss": 10.3498,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.13800997465456627,
5938
+ "grad_norm": 0.11297217756509781,
5939
+ "learning_rate": 9.126241723245122e-05,
5940
+ "loss": 10.3358,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.1381734935818821,
5945
+ "grad_norm": 0.06213637441396713,
5946
+ "learning_rate": 9.106436011760229e-05,
5947
+ "loss": 10.3378,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.13833701250919794,
5952
+ "grad_norm": 0.09207039326429367,
5953
+ "learning_rate": 9.086633833010537e-05,
5954
+ "loss": 10.3402,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.13850053143651378,
5959
+ "grad_norm": 0.09865938127040863,
5960
+ "learning_rate": 9.066835265284632e-05,
5961
+ "loss": 10.3447,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.13866405036382962,
5966
+ "grad_norm": 0.06385111808776855,
5967
+ "learning_rate": 9.047040386856807e-05,
5968
+ "loss": 10.3582,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.13882756929114545,
5973
+ "grad_norm": 0.06984174996614456,
5974
+ "learning_rate": 9.027249275986783e-05,
5975
+ "loss": 10.3414,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.1389910882184613,
5980
+ "grad_norm": 0.048934344202280045,
5981
+ "learning_rate": 9.007462010919386e-05,
5982
+ "loss": 10.3432,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.13915460714577713,
5987
+ "grad_norm": 0.049415282905101776,
5988
+ "learning_rate": 8.987678669884224e-05,
5989
+ "loss": 10.3454,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.13931812607309296,
5994
+ "grad_norm": 0.08953525871038437,
5995
+ "learning_rate": 8.9678993310954e-05,
5996
+ "loss": 10.3427,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.1394816450004088,
6001
+ "grad_norm": 0.0782846063375473,
6002
+ "learning_rate": 8.948124072751195e-05,
6003
+ "loss": 10.3393,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.13964516392772464,
6008
+ "grad_norm": 0.09727578610181808,
6009
+ "learning_rate": 8.928352973033759e-05,
6010
+ "loss": 10.35,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.13980868285504047,
6015
+ "grad_norm": 0.05756600573658943,
6016
+ "learning_rate": 8.908586110108794e-05,
6017
+ "loss": 10.3507,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.1399722017823563,
6022
+ "grad_norm": 0.0850805938243866,
6023
+ "learning_rate": 8.888823562125259e-05,
6024
+ "loss": 10.3456,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.14013572070967215,
6029
+ "grad_norm": 0.052331432700157166,
6030
+ "learning_rate": 8.869065407215046e-05,
6031
+ "loss": 10.3478,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.14029923963698798,
6036
+ "grad_norm": 0.09885098040103912,
6037
+ "learning_rate": 8.849311723492689e-05,
6038
+ "loss": 10.3437,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.14046275856430382,
6043
+ "grad_norm": 0.0896768644452095,
6044
+ "learning_rate": 8.829562589055037e-05,
6045
+ "loss": 10.3512,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.14062627749161966,
6050
+ "grad_norm": 0.07669004797935486,
6051
+ "learning_rate": 8.809818081980953e-05,
6052
+ "loss": 10.3417,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.1407897964189355,
6057
+ "grad_norm": 0.06714767962694168,
6058
+ "learning_rate": 8.790078280331011e-05,
6059
+ "loss": 10.3475,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.14095331534625133,
6064
+ "grad_norm": 0.059197574853897095,
6065
+ "learning_rate": 8.77034326214718e-05,
6066
+ "loss": 10.3503,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.14111683427356717,
6071
+ "grad_norm": 0.07281272858381271,
6072
+ "learning_rate": 8.750613105452511e-05,
6073
+ "loss": 10.3434,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.141280353200883,
6078
+ "grad_norm": 0.06779444217681885,
6079
+ "learning_rate": 8.730887888250849e-05,
6080
+ "loss": 10.3378,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.14144387212819884,
6085
+ "grad_norm": 0.07162304222583771,
6086
+ "learning_rate": 8.711167688526493e-05,
6087
+ "loss": 10.3525,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.14160739105551468,
6092
+ "grad_norm": 0.08897604048252106,
6093
+ "learning_rate": 8.69145258424392e-05,
6094
+ "loss": 10.343,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.1417709099828305,
6099
+ "grad_norm": 0.09015105664730072,
6100
+ "learning_rate": 8.671742653347456e-05,
6101
+ "loss": 10.3454,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.14193442891014635,
6106
+ "grad_norm": 0.06099049746990204,
6107
+ "learning_rate": 8.652037973760969e-05,
6108
+ "loss": 10.3512,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.14209794783746219,
6113
+ "grad_norm": 0.0777360200881958,
6114
+ "learning_rate": 8.632338623387577e-05,
6115
+ "loss": 10.333,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.14226146676477802,
6120
+ "grad_norm": 0.061629846692085266,
6121
+ "learning_rate": 8.612644680109319e-05,
6122
+ "loss": 10.3486,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.14242498569209386,
6127
+ "grad_norm": 0.07192935049533844,
6128
+ "learning_rate": 8.59295622178686e-05,
6129
+ "loss": 10.3455,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.1425885046194097,
6134
+ "grad_norm": 0.0606074221432209,
6135
+ "learning_rate": 8.573273326259184e-05,
6136
+ "loss": 10.3434,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.14275202354672553,
6141
+ "grad_norm": 0.06332432478666306,
6142
+ "learning_rate": 8.553596071343274e-05,
6143
+ "loss": 10.342,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.14291554247404137,
6148
+ "grad_norm": 0.06337670981884003,
6149
+ "learning_rate": 8.533924534833822e-05,
6150
+ "loss": 10.3499,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.1430790614013572,
6155
+ "grad_norm": 0.06023447588086128,
6156
+ "learning_rate": 8.514258794502905e-05,
6157
+ "loss": 10.3513,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.14324258032867304,
6162
+ "grad_norm": 0.1311032921075821,
6163
+ "learning_rate": 8.494598928099688e-05,
6164
+ "loss": 10.3421,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.14340609925598888,
6169
+ "grad_norm": 0.07438237965106964,
6170
+ "learning_rate": 8.474945013350112e-05,
6171
+ "loss": 10.3464,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.14356961818330471,
6176
+ "grad_norm": 0.09203974902629852,
6177
+ "learning_rate": 8.455297127956589e-05,
6178
+ "loss": 10.3408,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.14373313711062055,
6183
+ "grad_norm": 0.07816965878009796,
6184
+ "learning_rate": 8.435655349597689e-05,
6185
+ "loss": 10.347,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.1438966560379364,
6190
+ "grad_norm": 0.058189962059259415,
6191
+ "learning_rate": 8.416019755927851e-05,
6192
+ "loss": 10.3411,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.14406017496525222,
6197
+ "grad_norm": 0.09259826689958572,
6198
+ "learning_rate": 8.396390424577043e-05,
6199
+ "loss": 10.3413,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.14422369389256806,
6204
+ "grad_norm": 0.06901207566261292,
6205
+ "learning_rate": 8.376767433150491e-05,
6206
+ "loss": 10.3458,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.1443872128198839,
6211
+ "grad_norm": 0.06953845173120499,
6212
+ "learning_rate": 8.357150859228351e-05,
6213
+ "loss": 10.3409,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.14455073174719973,
6218
+ "grad_norm": 0.12560045719146729,
6219
+ "learning_rate": 8.337540780365401e-05,
6220
+ "loss": 10.3505,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.14471425067451557,
6225
+ "grad_norm": 0.0934881642460823,
6226
+ "learning_rate": 8.317937274090747e-05,
6227
+ "loss": 10.3389,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.1448777696018314,
6232
+ "grad_norm": 0.16856247186660767,
6233
+ "learning_rate": 8.298340417907512e-05,
6234
+ "loss": 10.3607,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.14504128852914724,
6239
+ "grad_norm": 0.08886121213436127,
6240
+ "learning_rate": 8.278750289292521e-05,
6241
+ "loss": 10.3409,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.14520480745646308,
6246
+ "grad_norm": 0.08185100555419922,
6247
+ "learning_rate": 8.259166965696003e-05,
6248
+ "loss": 10.3348,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.14536832638377892,
6253
+ "grad_norm": 0.09273926913738251,
6254
+ "learning_rate": 8.239590524541293e-05,
6255
+ "loss": 10.3403,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.14553184531109475,
6260
+ "grad_norm": 0.06138148531317711,
6261
+ "learning_rate": 8.2200210432245e-05,
6262
+ "loss": 10.3444,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.1456953642384106,
6267
+ "grad_norm": 0.07617463916540146,
6268
+ "learning_rate": 8.200458599114228e-05,
6269
+ "loss": 10.3451,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.14585888316572643,
6274
+ "grad_norm": 0.08602487295866013,
6275
+ "learning_rate": 8.180903269551255e-05,
6276
+ "loss": 10.3556,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.14602240209304226,
6281
+ "grad_norm": 0.07287289947271347,
6282
+ "learning_rate": 8.161355131848231e-05,
6283
+ "loss": 10.3429,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.1461859210203581,
6288
+ "grad_norm": 0.10442943125963211,
6289
+ "learning_rate": 8.14181426328938e-05,
6290
+ "loss": 10.3359,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.14634943994767394,
6295
+ "grad_norm": 0.0643426850438118,
6296
+ "learning_rate": 8.122280741130176e-05,
6297
+ "loss": 10.3482,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.14651295887498977,
6302
+ "grad_norm": 0.11469782143831253,
6303
+ "learning_rate": 8.102754642597055e-05,
6304
+ "loss": 10.331,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.1466764778023056,
6309
+ "grad_norm": 0.0717199444770813,
6310
+ "learning_rate": 8.083236044887106e-05,
6311
+ "loss": 10.3453,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.14683999672962145,
6316
+ "grad_norm": 0.0660734623670578,
6317
+ "learning_rate": 8.063725025167754e-05,
6318
+ "loss": 10.3432,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.14700351565693728,
6323
+ "grad_norm": 0.0714247077703476,
6324
+ "learning_rate": 8.044221660576476e-05,
6325
+ "loss": 10.3418,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.14716703458425312,
6330
+ "grad_norm": 0.07890897244215012,
6331
+ "learning_rate": 8.024726028220474e-05,
6332
+ "loss": 10.3439,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.14733055351156896,
6337
+ "grad_norm": 0.05443431809544563,
6338
+ "learning_rate": 8.005238205176387e-05,
6339
+ "loss": 10.3504,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.1474940724388848,
6344
+ "grad_norm": 0.09214995801448822,
6345
+ "learning_rate": 7.985758268489975e-05,
6346
+ "loss": 10.3455,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.14765759136620063,
6351
+ "grad_norm": 0.08428926020860672,
6352
+ "learning_rate": 7.966286295175824e-05,
6353
+ "loss": 10.3499,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.14782111029351647,
6358
+ "grad_norm": 0.1792377382516861,
6359
+ "learning_rate": 7.946822362217032e-05,
6360
+ "loss": 10.3274,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.1479846292208323,
6365
+ "grad_norm": 0.06639645993709564,
6366
+ "learning_rate": 7.927366546564911e-05,
6367
+ "loss": 10.3454,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.14814814814814814,
6372
+ "grad_norm": 0.13054105639457703,
6373
+ "learning_rate": 7.90791892513868e-05,
6374
+ "loss": 10.3522,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.14831166707546398,
6379
+ "grad_norm": 0.08296360075473785,
6380
+ "learning_rate": 7.888479574825165e-05,
6381
+ "loss": 10.3411,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.1484751860027798,
6386
+ "grad_norm": 0.0851949006319046,
6387
+ "learning_rate": 7.869048572478488e-05,
6388
+ "loss": 10.3364,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.14863870493009565,
6393
+ "grad_norm": 0.08287424594163895,
6394
+ "learning_rate": 7.849625994919767e-05,
6395
+ "loss": 10.3472,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.1488022238574115,
6400
+ "grad_norm": 0.05285567045211792,
6401
+ "learning_rate": 7.83021191893682e-05,
6402
+ "loss": 10.3501,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.14896574278472732,
6407
+ "grad_norm": 0.06834254413843155,
6408
+ "learning_rate": 7.810806421283841e-05,
6409
+ "loss": 10.3607,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.14912926171204316,
6414
+ "grad_norm": 0.058842241764068604,
6415
+ "learning_rate": 7.791409578681121e-05,
6416
+ "loss": 10.3407,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.149292780639359,
6421
+ "grad_norm": 0.11524898558855057,
6422
+ "learning_rate": 7.772021467814723e-05,
6423
+ "loss": 10.3466,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.14945629956667483,
6428
+ "grad_norm": 0.08459778130054474,
6429
+ "learning_rate": 7.752642165336195e-05,
6430
+ "loss": 10.3529,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.14961981849399067,
6435
+ "grad_norm": 0.08150472491979599,
6436
+ "learning_rate": 7.733271747862265e-05,
6437
+ "loss": 10.3447,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.1497833374213065,
6442
+ "grad_norm": 0.07789532095193863,
6443
+ "learning_rate": 7.713910291974527e-05,
6444
+ "loss": 10.3467,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.14994685634862234,
6449
+ "grad_norm": 0.06128161400556564,
6450
+ "learning_rate": 7.694557874219138e-05,
6451
+ "loss": 10.3517,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.15011037527593818,
6456
+ "grad_norm": 0.06433887779712677,
6457
+ "learning_rate": 7.675214571106536e-05,
6458
+ "loss": 10.3451,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.15027389420325402,
6463
+ "grad_norm": 0.13994459807872772,
6464
+ "learning_rate": 7.655880459111123e-05,
6465
+ "loss": 10.3421,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.15043741313056985,
6470
+ "grad_norm": 0.069017194211483,
6471
+ "learning_rate": 7.636555614670953e-05,
6472
+ "loss": 10.352,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.1506009320578857,
6477
+ "grad_norm": 0.08271420747041702,
6478
+ "learning_rate": 7.617240114187452e-05,
6479
+ "loss": 10.3448,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.15076445098520153,
6484
+ "grad_norm": 0.09887969493865967,
6485
+ "learning_rate": 7.597934034025092e-05,
6486
+ "loss": 10.3531,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.15092796991251736,
6491
+ "grad_norm": 0.1021571010351181,
6492
+ "learning_rate": 7.578637450511116e-05,
6493
+ "loss": 10.3412,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.1510914888398332,
6498
+ "grad_norm": 0.08674758672714233,
6499
+ "learning_rate": 7.559350439935213e-05,
6500
+ "loss": 10.3403,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.15125500776714904,
6505
+ "grad_norm": 0.08601857721805573,
6506
+ "learning_rate": 7.540073078549221e-05,
6507
+ "loss": 10.3514,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.15141852669446487,
6512
+ "grad_norm": 0.09482517093420029,
6513
+ "learning_rate": 7.52080544256684e-05,
6514
+ "loss": 10.3469,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.1515820456217807,
6519
+ "grad_norm": 0.0778004452586174,
6520
+ "learning_rate": 7.501547608163317e-05,
6521
+ "loss": 10.3439,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.15174556454909655,
6526
+ "grad_norm": 0.05390161648392677,
6527
+ "learning_rate": 7.48229965147514e-05,
6528
+ "loss": 10.3413,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.15190908347641238,
6533
+ "grad_norm": 0.11087460815906525,
6534
+ "learning_rate": 7.463061648599757e-05,
6535
+ "loss": 10.347,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.15207260240372822,
6540
+ "grad_norm": 0.16281658411026,
6541
+ "learning_rate": 7.443833675595255e-05,
6542
+ "loss": 10.3528,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.15223612133104406,
6547
+ "grad_norm": 0.0704844668507576,
6548
+ "learning_rate": 7.424615808480068e-05,
6549
+ "loss": 10.335,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.1523996402583599,
6554
+ "grad_norm": 0.07584381848573685,
6555
+ "learning_rate": 7.405408123232686e-05,
6556
+ "loss": 10.3593,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.15256315918567573,
6561
+ "grad_norm": 0.09159449487924576,
6562
+ "learning_rate": 7.386210695791332e-05,
6563
+ "loss": 10.3342,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.15272667811299157,
6568
+ "grad_norm": 0.06305116415023804,
6569
+ "learning_rate": 7.367023602053679e-05,
6570
+ "loss": 10.3401,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.1528901970403074,
6575
+ "grad_norm": 0.07074683904647827,
6576
+ "learning_rate": 7.347846917876544e-05,
6577
+ "loss": 10.3353,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.15305371596762327,
6582
+ "grad_norm": 0.13172592222690582,
6583
+ "learning_rate": 7.328680719075596e-05,
6584
+ "loss": 10.3611,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.1532172348949391,
6589
+ "grad_norm": 0.07162374258041382,
6590
+ "learning_rate": 7.309525081425044e-05,
6591
+ "loss": 10.3556,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.15338075382225494,
6596
+ "grad_norm": 0.061027929186820984,
6597
+ "learning_rate": 7.29038008065734e-05,
6598
+ "loss": 10.3508,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.15354427274957078,
6603
+ "grad_norm": 0.09178778529167175,
6604
+ "learning_rate": 7.271245792462891e-05,
6605
+ "loss": 10.3429,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.1537077916768866,
6610
+ "grad_norm": 0.09651417285203934,
6611
+ "learning_rate": 7.252122292489747e-05,
6612
+ "loss": 10.338,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.15387131060420245,
6617
+ "grad_norm": 0.0864914059638977,
6618
+ "learning_rate": 7.233009656343304e-05,
6619
+ "loss": 10.3417,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.15403482953151829,
6624
+ "grad_norm": 0.06251879036426544,
6625
+ "learning_rate": 7.213907959586014e-05,
6626
+ "loss": 10.3404,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.15419834845883412,
6631
+ "grad_norm": 0.12224212288856506,
6632
+ "learning_rate": 7.194817277737071e-05,
6633
+ "loss": 10.3551,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.15436186738614996,
6638
+ "grad_norm": 0.08379900455474854,
6639
+ "learning_rate": 7.17573768627213e-05,
6640
+ "loss": 10.3439,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.1545253863134658,
6645
+ "grad_norm": 0.06541034579277039,
6646
+ "learning_rate": 7.156669260622996e-05,
6647
+ "loss": 10.3493,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.15468890524078163,
6652
+ "grad_norm": 0.08822879940271378,
6653
+ "learning_rate": 7.137612076177329e-05,
6654
+ "loss": 10.3484,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.15485242416809747,
6659
+ "grad_norm": 0.07290088385343552,
6660
+ "learning_rate": 7.118566208278346e-05,
6661
+ "loss": 10.3446,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.1550159430954133,
6666
+ "grad_norm": 0.062057286500930786,
6667
+ "learning_rate": 7.099531732224524e-05,
6668
+ "loss": 10.3438,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.15517946202272914,
6673
+ "grad_norm": 0.1268312633037567,
6674
+ "learning_rate": 7.080508723269308e-05,
6675
+ "loss": 10.3384,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.15534298095004498,
6680
+ "grad_norm": 0.05009286105632782,
6681
+ "learning_rate": 7.061497256620793e-05,
6682
+ "loss": 10.3511,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.15550649987736082,
6687
+ "grad_norm": 0.0904565081000328,
6688
+ "learning_rate": 7.042497407441457e-05,
6689
+ "loss": 10.3454,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.15567001880467665,
6694
+ "grad_norm": 0.07426796853542328,
6695
+ "learning_rate": 7.023509250847838e-05,
6696
+ "loss": 10.3345,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.1558335377319925,
6701
+ "grad_norm": 0.09245802462100983,
6702
+ "learning_rate": 7.004532861910251e-05,
6703
+ "loss": 10.3428,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.15599705665930833,
6708
+ "grad_norm": 0.07755796611309052,
6709
+ "learning_rate": 6.985568315652488e-05,
6710
+ "loss": 10.3531,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.15616057558662416,
6715
+ "grad_norm": 0.08339790254831314,
6716
+ "learning_rate": 6.966615687051516e-05,
6717
+ "loss": 10.3439,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.15632409451394,
6722
+ "grad_norm": 0.06234053149819374,
6723
+ "learning_rate": 6.947675051037192e-05,
6724
+ "loss": 10.3468,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.15648761344125584,
6729
+ "grad_norm": 0.06956285983324051,
6730
+ "learning_rate": 6.928746482491952e-05,
6731
+ "loss": 10.3473,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.15665113236857167,
6736
+ "grad_norm": 0.06687292456626892,
6737
+ "learning_rate": 6.909830056250527e-05,
6738
+ "loss": 10.345,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.1568146512958875,
6743
+ "grad_norm": 0.10145143419504166,
6744
+ "learning_rate": 6.890925847099645e-05,
6745
+ "loss": 10.3386,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.15697817022320334,
6750
+ "grad_norm": 0.07209116965532303,
6751
+ "learning_rate": 6.87203392977773e-05,
6752
+ "loss": 10.3356,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.15714168915051918,
6757
+ "grad_norm": 0.05291639640927315,
6758
+ "learning_rate": 6.85315437897461e-05,
6759
+ "loss": 10.3493,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.15730520807783502,
6764
+ "grad_norm": 0.06835281848907471,
6765
+ "learning_rate": 6.834287269331226e-05,
6766
+ "loss": 10.3414,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.15746872700515085,
6771
+ "grad_norm": 0.11120449751615524,
6772
+ "learning_rate": 6.815432675439322e-05,
6773
+ "loss": 10.3339,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.1576322459324667,
6778
+ "grad_norm": 0.11330325901508331,
6779
+ "learning_rate": 6.796590671841177e-05,
6780
+ "loss": 10.3388,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.15779576485978253,
6785
+ "grad_norm": 0.08197707682847977,
6786
+ "learning_rate": 6.777761333029275e-05,
6787
+ "loss": 10.3441,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.15795928378709836,
6792
+ "grad_norm": 0.12177684158086777,
6793
+ "learning_rate": 6.758944733446041e-05,
6794
+ "loss": 10.3344,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.1581228027144142,
6799
+ "grad_norm": 0.08609756827354431,
6800
+ "learning_rate": 6.740140947483541e-05,
6801
+ "loss": 10.3436,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.15828632164173004,
6806
+ "grad_norm": 0.06757651269435883,
6807
+ "learning_rate": 6.721350049483162e-05,
6808
+ "loss": 10.3526,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.15844984056904587,
6813
+ "grad_norm": 0.10005096346139908,
6814
+ "learning_rate": 6.702572113735358e-05,
6815
+ "loss": 10.3518,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.1586133594963617,
6820
+ "grad_norm": 0.07108530402183533,
6821
+ "learning_rate": 6.683807214479323e-05,
6822
+ "loss": 10.3425,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.15877687842367755,
6827
+ "grad_norm": 0.07789983600378036,
6828
+ "learning_rate": 6.665055425902716e-05,
6829
+ "loss": 10.3454,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.15894039735099338,
6834
+ "grad_norm": 0.08780791610479355,
6835
+ "learning_rate": 6.646316822141368e-05,
6836
+ "loss": 10.3375,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.15910391627830922,
6841
+ "grad_norm": 0.04945690557360649,
6842
+ "learning_rate": 6.627591477278969e-05,
6843
+ "loss": 10.3404,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.15926743520562506,
6848
+ "grad_norm": 0.09763111919164658,
6849
+ "learning_rate": 6.608879465346804e-05,
6850
+ "loss": 10.3646,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.1594309541329409,
6855
+ "grad_norm": 0.09061010926961899,
6856
+ "learning_rate": 6.59018086032344e-05,
6857
+ "loss": 10.3494,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.15959447306025673,
6862
+ "grad_norm": 0.13620643317699432,
6863
+ "learning_rate": 6.571495736134434e-05,
6864
+ "loss": 10.3502,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.15975799198757257,
6869
+ "grad_norm": 0.10544710606336594,
6870
+ "learning_rate": 6.552824166652059e-05,
6871
+ "loss": 10.3366,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.1599215109148884,
6876
+ "grad_norm": 0.062366314232349396,
6877
+ "learning_rate": 6.534166225694984e-05,
6878
+ "loss": 10.3492,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.16008502984220424,
6883
+ "grad_norm": 0.07919897139072418,
6884
+ "learning_rate": 6.515521987028009e-05,
6885
+ "loss": 10.3515,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.16024854876952008,
6890
+ "grad_norm": 0.08079025149345398,
6891
+ "learning_rate": 6.496891524361757e-05,
6892
+ "loss": 10.3453,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.1604120676968359,
6897
+ "grad_norm": 0.1006539836525917,
6898
+ "learning_rate": 6.478274911352385e-05,
6899
+ "loss": 10.3425,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.16057558662415175,
6904
+ "grad_norm": 0.06720111519098282,
6905
+ "learning_rate": 6.4596722216013e-05,
6906
+ "loss": 10.3407,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.1607391055514676,
6911
+ "grad_norm": 0.07172605395317078,
6912
+ "learning_rate": 6.441083528654856e-05,
6913
+ "loss": 10.3534,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.16090262447878342,
6918
+ "grad_norm": 0.06686363369226456,
6919
+ "learning_rate": 6.422508906004078e-05,
6920
+ "loss": 10.3495,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.16106614340609926,
6925
+ "grad_norm": 0.08130093663930893,
6926
+ "learning_rate": 6.403948427084356e-05,
6927
+ "loss": 10.3437,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.1612296623334151,
6932
+ "grad_norm": 0.0772842988371849,
6933
+ "learning_rate": 6.38540216527517e-05,
6934
+ "loss": 10.342,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.16139318126073093,
6939
+ "grad_norm": 0.06907609850168228,
6940
+ "learning_rate": 6.366870193899784e-05,
6941
+ "loss": 10.3424,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.16155670018804677,
6946
+ "grad_norm": 0.07291463762521744,
6947
+ "learning_rate": 6.348352586224972e-05,
6948
+ "loss": 10.3475,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.1617202191153626,
6953
+ "grad_norm": 0.09994920343160629,
6954
+ "learning_rate": 6.329849415460717e-05,
6955
+ "loss": 10.3437,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.16188373804267844,
6960
+ "grad_norm": 0.07714927941560745,
6961
+ "learning_rate": 6.311360754759923e-05,
6962
+ "loss": 10.3489,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.16204725696999428,
6967
+ "grad_norm": 0.08187807351350784,
6968
+ "learning_rate": 6.292886677218134e-05,
6969
+ "loss": 10.3495,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.16221077589731012,
6974
+ "grad_norm": 0.23332437872886658,
6975
+ "learning_rate": 6.27442725587323e-05,
6976
+ "loss": 10.3674,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.16237429482462595,
6981
+ "grad_norm": 0.09756692498922348,
6982
+ "learning_rate": 6.255982563705159e-05,
6983
+ "loss": 10.3367,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.1625378137519418,
6988
+ "grad_norm": 0.0997442975640297,
6989
+ "learning_rate": 6.237552673635624e-05,
6990
+ "loss": 10.3521,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.16270133267925763,
6995
+ "grad_norm": 0.05881795287132263,
6996
+ "learning_rate": 6.219137658527818e-05,
6997
+ "loss": 10.3434,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.16286485160657346,
7002
+ "grad_norm": 0.08922906965017319,
7003
+ "learning_rate": 6.20073759118612e-05,
7004
+ "loss": 10.3469,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.1630283705338893,
7009
+ "grad_norm": 0.09267131984233856,
7010
+ "learning_rate": 6.182352544355814e-05,
7011
+ "loss": 10.3435,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.16319188946120514,
7016
+ "grad_norm": 0.09405411779880524,
7017
+ "learning_rate": 6.163982590722797e-05,
7018
+ "loss": 10.3454,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.16335540838852097,
7023
+ "grad_norm": 0.10673796385526657,
7024
+ "learning_rate": 6.1456278029133e-05,
7025
+ "loss": 10.3344,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.1635189273158368,
7030
+ "grad_norm": 0.09203071892261505,
7031
+ "learning_rate": 6.127288253493591e-05,
7032
+ "loss": 10.3426,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.16368244624315265,
7037
+ "grad_norm": 0.06706003844738007,
7038
+ "learning_rate": 6.108964014969692e-05,
7039
+ "loss": 10.3421,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.16384596517046848,
7044
+ "grad_norm": 0.07696403563022614,
7045
+ "learning_rate": 6.0906551597871e-05,
7046
+ "loss": 10.3428,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.16400948409778432,
7051
+ "grad_norm": 0.13336971402168274,
7052
+ "learning_rate": 6.07236176033048e-05,
7053
+ "loss": 10.3566,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.16417300302510016,
7058
+ "grad_norm": 0.08602435886859894,
7059
+ "learning_rate": 6.054083888923407e-05,
7060
+ "loss": 10.3445,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.164336521952416,
7065
+ "grad_norm": 0.055001333355903625,
7066
+ "learning_rate": 6.03582161782806e-05,
7067
+ "loss": 10.3419,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.16450004087973183,
7072
+ "grad_norm": 0.14026737213134766,
7073
+ "learning_rate": 6.0175750192449346e-05,
7074
+ "loss": 10.3403,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.16466355980704767,
7079
+ "grad_norm": 0.09036275744438171,
7080
+ "learning_rate": 5.999344165312576e-05,
7081
+ "loss": 10.3398,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.1648270787343635,
7086
+ "grad_norm": 0.08993495255708694,
7087
+ "learning_rate": 5.981129128107272e-05,
7088
+ "loss": 10.347,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.16499059766167934,
7093
+ "grad_norm": 0.10535188764333725,
7094
+ "learning_rate": 5.962929979642784e-05,
7095
+ "loss": 10.35,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.16515411658899518,
7100
+ "grad_norm": 0.0683152824640274,
7101
+ "learning_rate": 5.9447467918700614e-05,
7102
+ "loss": 10.3507,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.165317635516311,
7107
+ "grad_norm": 0.0865989699959755,
7108
+ "learning_rate": 5.92657963667694e-05,
7109
+ "loss": 10.3399,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.16548115444362685,
7114
+ "grad_norm": 0.060239121317863464,
7115
+ "learning_rate": 5.908428585887883e-05,
7116
+ "loss": 10.3467,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.16564467337094269,
7121
+ "grad_norm": 0.07495436817407608,
7122
+ "learning_rate": 5.8902937112636736e-05,
7123
+ "loss": 10.3408,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.16580819229825852,
7128
+ "grad_norm": 0.09576012194156647,
7129
+ "learning_rate": 5.8721750845011534e-05,
7130
+ "loss": 10.3501,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.16597171122557436,
7135
+ "grad_norm": 0.06893251091241837,
7136
+ "learning_rate": 5.854072777232914e-05,
7137
+ "loss": 10.3433,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.1661352301528902,
7142
+ "grad_norm": 0.10778357833623886,
7143
+ "learning_rate": 5.835986861027038e-05,
7144
+ "loss": 10.3496,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.16629874908020603,
7149
+ "grad_norm": 0.08453772962093353,
7150
+ "learning_rate": 5.817917407386802e-05,
7151
+ "loss": 10.347,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.16646226800752187,
7156
+ "grad_norm": 0.0690169557929039,
7157
+ "learning_rate": 5.799864487750395e-05,
7158
+ "loss": 10.3495,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.1666257869348377,
7163
+ "grad_norm": 0.07818324863910675,
7164
+ "learning_rate": 5.7818281734906435e-05,
7165
+ "loss": 10.3496,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.16678930586215354,
7170
+ "grad_norm": 0.10107786953449249,
7171
+ "learning_rate": 5.763808535914723e-05,
7172
+ "loss": 10.3466,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.16695282478946938,
7177
+ "grad_norm": 0.06788674741983414,
7178
+ "learning_rate": 5.745805646263867e-05,
7179
+ "loss": 10.3417,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.16711634371678522,
7184
+ "grad_norm": 0.07959935069084167,
7185
+ "learning_rate": 5.72781957571311e-05,
7186
+ "loss": 10.3524,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.16727986264410105,
7191
+ "grad_norm": 0.08590371906757355,
7192
+ "learning_rate": 5.709850395370984e-05,
7193
+ "loss": 10.3463,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.1674433815714169,
7198
+ "grad_norm": 0.13714461028575897,
7199
+ "learning_rate": 5.691898176279245e-05,
7200
+ "loss": 10.3373,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.16760690049873272,
7205
+ "grad_norm": 0.11352202296257019,
7206
+ "learning_rate": 5.673962989412599e-05,
7207
+ "loss": 10.3455,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.16777041942604856,
7212
+ "grad_norm": 0.07253246009349823,
7213
+ "learning_rate": 5.6560449056784014e-05,
7214
+ "loss": 10.3389,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.1679339383533644,
7219
+ "grad_norm": 0.1057049110531807,
7220
+ "learning_rate": 5.6381439959164e-05,
7221
+ "loss": 10.34,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.16809745728068023,
7226
+ "grad_norm": 0.09184250235557556,
7227
+ "learning_rate": 5.620260330898442e-05,
7228
+ "loss": 10.3349,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.16826097620799607,
7233
+ "grad_norm": 0.04531189426779747,
7234
+ "learning_rate": 5.6023939813281975e-05,
7235
+ "loss": 10.3507,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.1684244951353119,
7240
+ "grad_norm": 0.06983935087919235,
7241
+ "learning_rate": 5.584545017840885e-05,
7242
+ "loss": 10.3397,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.16858801406262774,
7247
+ "grad_norm": 0.051930516958236694,
7248
+ "learning_rate": 5.566713511002969e-05,
7249
+ "loss": 10.3486,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.16875153298994358,
7254
+ "grad_norm": 0.06173890084028244,
7255
+ "learning_rate": 5.548899531311915e-05,
7256
+ "loss": 10.3401,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.16891505191725942,
7261
+ "grad_norm": 0.052987031638622284,
7262
+ "learning_rate": 5.531103149195891e-05,
7263
+ "loss": 10.3464,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.16907857084457525,
7268
+ "grad_norm": 0.10105844587087631,
7269
+ "learning_rate": 5.5133244350134895e-05,
7270
+ "loss": 10.3427,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.1692420897718911,
7275
+ "grad_norm": 0.06929253041744232,
7276
+ "learning_rate": 5.4955634590534545e-05,
7277
+ "loss": 10.3486,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.16940560869920693,
7282
+ "grad_norm": 0.10541786253452301,
7283
+ "learning_rate": 5.4778202915344015e-05,
7284
+ "loss": 10.3443,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.16956912762652276,
7289
+ "grad_norm": 0.07011062651872635,
7290
+ "learning_rate": 5.4600950026045326e-05,
7291
+ "loss": 10.3456,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.1697326465538386,
7296
+ "grad_norm": 0.06883953511714935,
7297
+ "learning_rate": 5.442387662341377e-05,
7298
+ "loss": 10.339,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.16989616548115444,
7303
+ "grad_norm": 0.1161513701081276,
7304
+ "learning_rate": 5.4246983407514975e-05,
7305
+ "loss": 10.3403,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.17005968440847027,
7310
+ "grad_norm": 0.06931749731302261,
7311
+ "learning_rate": 5.407027107770219e-05,
7312
+ "loss": 10.3525,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.1702232033357861,
7317
+ "grad_norm": 0.08152681589126587,
7318
+ "learning_rate": 5.389374033261361e-05,
7319
+ "loss": 10.3428,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.17038672226310195,
7324
+ "grad_norm": 0.0889812782406807,
7325
+ "learning_rate": 5.371739187016935e-05,
7326
+ "loss": 10.357,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.17055024119041778,
7331
+ "grad_norm": 0.056913699954748154,
7332
+ "learning_rate": 5.354122638756903e-05,
7333
+ "loss": 10.3499,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.17071376011773362,
7338
+ "grad_norm": 0.13452935218811035,
7339
+ "learning_rate": 5.33652445812888e-05,
7340
+ "loss": 10.3359,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.17087727904504946,
7345
+ "grad_norm": 0.065815769135952,
7346
+ "learning_rate": 5.318944714707861e-05,
7347
+ "loss": 10.3395,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.1710407979723653,
7352
+ "grad_norm": 0.11757277697324753,
7353
+ "learning_rate": 5.3013834779959556e-05,
7354
+ "loss": 10.3444,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.17120431689968113,
7359
+ "grad_norm": 0.055451128631830215,
7360
+ "learning_rate": 5.2838408174221024e-05,
7361
+ "loss": 10.341,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.17136783582699697,
7366
+ "grad_norm": 0.06440325826406479,
7367
+ "learning_rate": 5.26631680234179e-05,
7368
+ "loss": 10.3393,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.1715313547543128,
7373
+ "grad_norm": 0.11301703751087189,
7374
+ "learning_rate": 5.248811502036806e-05,
7375
+ "loss": 10.329,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.17169487368162864,
7380
+ "grad_norm": 0.06889182329177856,
7381
+ "learning_rate": 5.2313249857149414e-05,
7382
+ "loss": 10.3471,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.17185839260894448,
7387
+ "grad_norm": 0.08504924178123474,
7388
+ "learning_rate": 5.2138573225097266e-05,
7389
+ "loss": 10.3369,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.1720219115362603,
7394
+ "grad_norm": 0.06605865061283112,
7395
+ "learning_rate": 5.196408581480152e-05,
7396
+ "loss": 10.3555,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.17218543046357615,
7401
+ "grad_norm": 0.09931064397096634,
7402
+ "learning_rate": 5.1789788316104074e-05,
7403
+ "loss": 10.3295,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.172348949390892,
7408
+ "grad_norm": 0.07454589754343033,
7409
+ "learning_rate": 5.161568141809583e-05,
7410
+ "loss": 10.3474,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.17251246831820782,
7415
+ "grad_norm": 0.08683858811855316,
7416
+ "learning_rate": 5.144176580911431e-05,
7417
+ "loss": 10.3542,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.17267598724552366,
7422
+ "grad_norm": 0.07568492740392685,
7423
+ "learning_rate": 5.126804217674068e-05,
7424
+ "loss": 10.3421,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.1728395061728395,
7429
+ "grad_norm": 0.06950981914997101,
7430
+ "learning_rate": 5.109451120779718e-05,
7431
+ "loss": 10.3512,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.17300302510015533,
7436
+ "grad_norm": 0.06341303884983063,
7437
+ "learning_rate": 5.092117358834434e-05,
7438
+ "loss": 10.3443,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.17316654402747117,
7443
+ "grad_norm": 0.06856871396303177,
7444
+ "learning_rate": 5.074803000367818e-05,
7445
+ "loss": 10.3561,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.173330062954787,
7450
+ "grad_norm": 0.08887424319982529,
7451
+ "learning_rate": 5.0575081138327715e-05,
7452
+ "loss": 10.3539,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.17349358188210284,
7457
+ "grad_norm": 0.1078650951385498,
7458
+ "learning_rate": 5.040232767605209e-05,
7459
+ "loss": 10.3435,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.17365710080941868,
7464
+ "grad_norm": 0.09324576705694199,
7465
+ "learning_rate": 5.022977029983789e-05,
7466
+ "loss": 10.3434,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.17382061973673452,
7471
+ "grad_norm": 0.08254747837781906,
7472
+ "learning_rate": 5.005740969189655e-05,
7473
+ "loss": 10.3404,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.17398413866405035,
7478
+ "grad_norm": 0.07239022850990295,
7479
+ "learning_rate": 4.9885246533661433e-05,
7480
+ "loss": 10.3408,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.1741476575913662,
7485
+ "grad_norm": 0.058068279176950455,
7486
+ "learning_rate": 4.97132815057854e-05,
7487
+ "loss": 10.3401,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.17431117651868203,
7492
+ "grad_norm": 0.055977217853069305,
7493
+ "learning_rate": 4.954151528813795e-05,
7494
+ "loss": 10.3477,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.17447469544599786,
7499
+ "grad_norm": 0.09501728415489197,
7500
+ "learning_rate": 4.9369948559802605e-05,
7501
+ "loss": 10.3508,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.1746382143733137,
7506
+ "grad_norm": 0.07803209125995636,
7507
+ "learning_rate": 4.91985819990742e-05,
7508
+ "loss": 10.3376,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.17480173330062954,
7513
+ "grad_norm": 0.08067754656076431,
7514
+ "learning_rate": 4.902741628345612e-05,
7515
+ "loss": 10.3497,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.17496525222794537,
7520
+ "grad_norm": 0.07680683583021164,
7521
+ "learning_rate": 4.885645208965779e-05,
7522
+ "loss": 10.3394,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.1751287711552612,
7527
+ "grad_norm": 0.12665748596191406,
7528
+ "learning_rate": 4.8685690093591896e-05,
7529
+ "loss": 10.3586,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.17529229008257705,
7534
+ "grad_norm": 0.0813855454325676,
7535
+ "learning_rate": 4.85151309703717e-05,
7536
+ "loss": 10.3522,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.17545580900989288,
7541
+ "grad_norm": 0.0832417830824852,
7542
+ "learning_rate": 4.8344775394308484e-05,
7543
+ "loss": 10.3594,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.17561932793720872,
7548
+ "grad_norm": 0.07607519626617432,
7549
+ "learning_rate": 4.8174624038908645e-05,
7550
+ "loss": 10.3441,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.17578284686452456,
7555
+ "grad_norm": 0.04467737302184105,
7556
+ "learning_rate": 4.80046775768713e-05,
7557
+ "loss": 10.3389,
7558
+ "step": 1075
7559
+ },
7560
+ {
7561
+ "epoch": 0.1759463657918404,
7562
+ "grad_norm": 0.07424350082874298,
7563
+ "learning_rate": 4.783493668008551e-05,
7564
+ "loss": 10.349,
7565
+ "step": 1076
7566
+ },
7567
+ {
7568
+ "epoch": 0.17610988471915623,
7569
+ "grad_norm": 0.10817383229732513,
7570
+ "learning_rate": 4.766540201962758e-05,
7571
+ "loss": 10.3473,
7572
+ "step": 1077
7573
+ },
7574
+ {
7575
+ "epoch": 0.17627340364647207,
7576
+ "grad_norm": 0.09051129221916199,
7577
+ "learning_rate": 4.7496074265758494e-05,
7578
+ "loss": 10.3451,
7579
+ "step": 1078
7580
+ },
7581
+ {
7582
+ "epoch": 0.1764369225737879,
7583
+ "grad_norm": 0.08685331046581268,
7584
+ "learning_rate": 4.732695408792125e-05,
7585
+ "loss": 10.346,
7586
+ "step": 1079
7587
+ },
7588
+ {
7589
+ "epoch": 0.17660044150110377,
7590
+ "grad_norm": 0.09308838844299316,
7591
+ "learning_rate": 4.715804215473809e-05,
7592
+ "loss": 10.3536,
7593
+ "step": 1080
7594
+ },
7595
+ {
7596
+ "epoch": 0.1767639604284196,
7597
+ "grad_norm": 0.08783134818077087,
7598
+ "learning_rate": 4.698933913400798e-05,
7599
+ "loss": 10.3449,
7600
+ "step": 1081
7601
+ },
7602
+ {
7603
+ "epoch": 0.17692747935573544,
7604
+ "grad_norm": 0.055539608001708984,
7605
+ "learning_rate": 4.682084569270402e-05,
7606
+ "loss": 10.3374,
7607
+ "step": 1082
7608
+ },
7609
+ {
7610
+ "epoch": 0.17709099828305128,
7611
+ "grad_norm": 0.0705205500125885,
7612
+ "learning_rate": 4.6652562496970667e-05,
7613
+ "loss": 10.3497,
7614
+ "step": 1083
7615
+ },
7616
+ {
7617
+ "epoch": 0.1772545172103671,
7618
+ "grad_norm": 0.05567767843604088,
7619
+ "learning_rate": 4.648449021212118e-05,
7620
+ "loss": 10.3539,
7621
+ "step": 1084
7622
+ },
7623
+ {
7624
+ "epoch": 0.17741803613768295,
7625
+ "grad_norm": 0.05686875432729721,
7626
+ "learning_rate": 4.6316629502635025e-05,
7627
+ "loss": 10.342,
7628
+ "step": 1085
7629
+ },
7630
+ {
7631
+ "epoch": 0.1775815550649988,
7632
+ "grad_norm": 0.08918684720993042,
7633
+ "learning_rate": 4.614898103215507e-05,
7634
+ "loss": 10.3434,
7635
+ "step": 1086
7636
+ },
7637
+ {
7638
+ "epoch": 0.17774507399231462,
7639
+ "grad_norm": 0.061265699565410614,
7640
+ "learning_rate": 4.59815454634852e-05,
7641
+ "loss": 10.3424,
7642
+ "step": 1087
7643
+ },
7644
+ {
7645
+ "epoch": 0.17790859291963046,
7646
+ "grad_norm": 0.06800343096256256,
7647
+ "learning_rate": 4.5814323458587563e-05,
7648
+ "loss": 10.3337,
7649
+ "step": 1088
7650
+ },
7651
+ {
7652
+ "epoch": 0.1780721118469463,
7653
+ "grad_norm": 0.11221577972173691,
7654
+ "learning_rate": 4.564731567857995e-05,
7655
+ "loss": 10.3525,
7656
+ "step": 1089
7657
+ },
7658
+ {
7659
+ "epoch": 0.17823563077426213,
7660
+ "grad_norm": 0.07759296149015427,
7661
+ "learning_rate": 4.548052278373327e-05,
7662
+ "loss": 10.343,
7663
+ "step": 1090
7664
+ },
7665
+ {
7666
+ "epoch": 0.17839914970157797,
7667
+ "grad_norm": 0.130192831158638,
7668
+ "learning_rate": 4.5313945433468755e-05,
7669
+ "loss": 10.3446,
7670
+ "step": 1091
7671
+ },
7672
+ {
7673
+ "epoch": 0.1785626686288938,
7674
+ "grad_norm": 0.07616015523672104,
7675
+ "learning_rate": 4.514758428635557e-05,
7676
+ "loss": 10.3374,
7677
+ "step": 1092
7678
+ },
7679
+ {
7680
+ "epoch": 0.17872618755620964,
7681
+ "grad_norm": 0.08629491925239563,
7682
+ "learning_rate": 4.498144000010811e-05,
7683
+ "loss": 10.3442,
7684
+ "step": 1093
7685
+ },
7686
+ {
7687
+ "epoch": 0.17888970648352548,
7688
+ "grad_norm": 0.06363014131784439,
7689
+ "learning_rate": 4.481551323158338e-05,
7690
+ "loss": 10.3468,
7691
+ "step": 1094
7692
+ },
7693
+ {
7694
+ "epoch": 0.17905322541084132,
7695
+ "grad_norm": 0.15810951590538025,
7696
+ "learning_rate": 4.4649804636778456e-05,
7697
+ "loss": 10.3404,
7698
+ "step": 1095
7699
+ },
7700
+ {
7701
+ "epoch": 0.17921674433815715,
7702
+ "grad_norm": 0.08180614560842514,
7703
+ "learning_rate": 4.448431487082776e-05,
7704
+ "loss": 10.3474,
7705
+ "step": 1096
7706
+ },
7707
+ {
7708
+ "epoch": 0.179380263265473,
7709
+ "grad_norm": 0.04673139005899429,
7710
+ "learning_rate": 4.431904458800066e-05,
7711
+ "loss": 10.3369,
7712
+ "step": 1097
7713
+ },
7714
+ {
7715
+ "epoch": 0.17954378219278883,
7716
+ "grad_norm": 0.06742433458566666,
7717
+ "learning_rate": 4.4153994441698776e-05,
7718
+ "loss": 10.3495,
7719
+ "step": 1098
7720
+ },
7721
+ {
7722
+ "epoch": 0.17970730112010466,
7723
+ "grad_norm": 0.06503660976886749,
7724
+ "learning_rate": 4.3989165084453386e-05,
7725
+ "loss": 10.3467,
7726
+ "step": 1099
7727
+ },
7728
+ {
7729
+ "epoch": 0.1798708200474205,
7730
+ "grad_norm": 0.051366645842790604,
7731
+ "learning_rate": 4.382455716792291e-05,
7732
+ "loss": 10.3386,
7733
+ "step": 1100
7734
+ },
7735
+ {
7736
+ "epoch": 0.18003433897473634,
7737
+ "grad_norm": 0.10040915012359619,
7738
+ "learning_rate": 4.366017134289027e-05,
7739
+ "loss": 10.3482,
7740
+ "step": 1101
7741
+ },
7742
+ {
7743
+ "epoch": 0.18019785790205217,
7744
+ "grad_norm": 0.0676763504743576,
7745
+ "learning_rate": 4.349600825926028e-05,
7746
+ "loss": 10.3443,
7747
+ "step": 1102
7748
+ },
7749
+ {
7750
+ "epoch": 0.180361376829368,
7751
+ "grad_norm": 0.07206389307975769,
7752
+ "learning_rate": 4.333206856605725e-05,
7753
+ "loss": 10.3534,
7754
+ "step": 1103
7755
+ },
7756
+ {
7757
+ "epoch": 0.18052489575668385,
7758
+ "grad_norm": 0.08064892888069153,
7759
+ "learning_rate": 4.316835291142223e-05,
7760
+ "loss": 10.3424,
7761
+ "step": 1104
7762
+ },
7763
+ {
7764
+ "epoch": 0.18068841468399968,
7765
+ "grad_norm": 0.06373365223407745,
7766
+ "learning_rate": 4.300486194261057e-05,
7767
+ "loss": 10.3411,
7768
+ "step": 1105
7769
+ },
7770
+ {
7771
+ "epoch": 0.18085193361131552,
7772
+ "grad_norm": 0.09212401509284973,
7773
+ "learning_rate": 4.2841596305989354e-05,
7774
+ "loss": 10.3521,
7775
+ "step": 1106
7776
+ },
7777
+ {
7778
+ "epoch": 0.18101545253863136,
7779
+ "grad_norm": 0.0825531855225563,
7780
+ "learning_rate": 4.267855664703464e-05,
7781
+ "loss": 10.3436,
7782
+ "step": 1107
7783
+ },
7784
+ {
7785
+ "epoch": 0.1811789714659472,
7786
+ "grad_norm": 0.08634812384843826,
7787
+ "learning_rate": 4.251574361032925e-05,
7788
+ "loss": 10.3498,
7789
+ "step": 1108
7790
+ },
7791
+ {
7792
+ "epoch": 0.18134249039326303,
7793
+ "grad_norm": 0.05569440871477127,
7794
+ "learning_rate": 4.2353157839559984e-05,
7795
+ "loss": 10.3461,
7796
+ "step": 1109
7797
+ },
7798
+ {
7799
+ "epoch": 0.18150600932057886,
7800
+ "grad_norm": 0.0835985317826271,
7801
+ "learning_rate": 4.219079997751515e-05,
7802
+ "loss": 10.3511,
7803
+ "step": 1110
7804
+ },
7805
+ {
7806
+ "epoch": 0.1816695282478947,
7807
+ "grad_norm": 0.047303736209869385,
7808
+ "learning_rate": 4.2028670666082015e-05,
7809
+ "loss": 10.3453,
7810
+ "step": 1111
7811
+ },
7812
+ {
7813
+ "epoch": 0.18183304717521054,
7814
+ "grad_norm": 0.0699780285358429,
7815
+ "learning_rate": 4.1866770546244204e-05,
7816
+ "loss": 10.3424,
7817
+ "step": 1112
7818
+ },
7819
+ {
7820
+ "epoch": 0.18199656610252637,
7821
+ "grad_norm": 0.11049481481313705,
7822
+ "learning_rate": 4.170510025807932e-05,
7823
+ "loss": 10.3401,
7824
+ "step": 1113
7825
+ },
7826
+ {
7827
+ "epoch": 0.1821600850298422,
7828
+ "grad_norm": 0.09954044222831726,
7829
+ "learning_rate": 4.154366044075623e-05,
7830
+ "loss": 10.3389,
7831
+ "step": 1114
7832
+ },
7833
+ {
7834
+ "epoch": 0.18232360395715805,
7835
+ "grad_norm": 0.06754378229379654,
7836
+ "learning_rate": 4.1382451732532665e-05,
7837
+ "loss": 10.3331,
7838
+ "step": 1115
7839
+ },
7840
+ {
7841
+ "epoch": 0.18248712288447388,
7842
+ "grad_norm": 0.06585376709699631,
7843
+ "learning_rate": 4.12214747707527e-05,
7844
+ "loss": 10.3447,
7845
+ "step": 1116
7846
+ },
7847
+ {
7848
+ "epoch": 0.18265064181178972,
7849
+ "grad_norm": 0.076618492603302,
7850
+ "learning_rate": 4.1060730191844154e-05,
7851
+ "loss": 10.3459,
7852
+ "step": 1117
7853
+ },
7854
+ {
7855
+ "epoch": 0.18281416073910556,
7856
+ "grad_norm": 0.08645208925008774,
7857
+ "learning_rate": 4.090021863131608e-05,
7858
+ "loss": 10.3457,
7859
+ "step": 1118
7860
+ },
7861
+ {
7862
+ "epoch": 0.1829776796664214,
7863
+ "grad_norm": 0.059928491711616516,
7864
+ "learning_rate": 4.073994072375631e-05,
7865
+ "loss": 10.3568,
7866
+ "step": 1119
7867
+ },
7868
+ {
7869
+ "epoch": 0.18314119859373723,
7870
+ "grad_norm": 0.07743990421295166,
7871
+ "learning_rate": 4.0579897102828966e-05,
7872
+ "loss": 10.3403,
7873
+ "step": 1120
7874
+ },
7875
+ {
7876
+ "epoch": 0.18330471752105307,
7877
+ "grad_norm": 0.10486611723899841,
7878
+ "learning_rate": 4.042008840127185e-05,
7879
+ "loss": 10.346,
7880
+ "step": 1121
7881
+ },
7882
+ {
7883
+ "epoch": 0.1834682364483689,
7884
+ "grad_norm": 0.06754382699728012,
7885
+ "learning_rate": 4.0260515250894025e-05,
7886
+ "loss": 10.3418,
7887
+ "step": 1122
7888
+ },
7889
+ {
7890
+ "epoch": 0.18363175537568474,
7891
+ "grad_norm": 0.06686645746231079,
7892
+ "learning_rate": 4.010117828257335e-05,
7893
+ "loss": 10.3515,
7894
+ "step": 1123
7895
+ },
7896
+ {
7897
+ "epoch": 0.18379527430300058,
7898
+ "grad_norm": 0.10611660033464432,
7899
+ "learning_rate": 3.9942078126253776e-05,
7900
+ "loss": 10.3385,
7901
+ "step": 1124
7902
+ },
7903
+ {
7904
+ "epoch": 0.18395879323031641,
7905
+ "grad_norm": 0.07262091338634491,
7906
+ "learning_rate": 3.9783215410943174e-05,
7907
+ "loss": 10.3425,
7908
+ "step": 1125
7909
+ },
7910
+ {
7911
+ "epoch": 0.18412231215763225,
7912
+ "grad_norm": 0.1426948755979538,
7913
+ "learning_rate": 3.962459076471059e-05,
7914
+ "loss": 10.331,
7915
+ "step": 1126
7916
+ },
7917
+ {
7918
+ "epoch": 0.1842858310849481,
7919
+ "grad_norm": 0.10427655279636383,
7920
+ "learning_rate": 3.946620481468391e-05,
7921
+ "loss": 10.3488,
7922
+ "step": 1127
7923
+ },
7924
+ {
7925
+ "epoch": 0.18444935001226392,
7926
+ "grad_norm": 0.09149676561355591,
7927
+ "learning_rate": 3.93080581870473e-05,
7928
+ "loss": 10.34,
7929
+ "step": 1128
7930
+ },
7931
+ {
7932
+ "epoch": 0.18461286893957976,
7933
+ "grad_norm": 0.09051238745450974,
7934
+ "learning_rate": 3.9150151507038736e-05,
7935
+ "loss": 10.3439,
7936
+ "step": 1129
7937
+ },
7938
+ {
7939
+ "epoch": 0.1847763878668956,
7940
+ "grad_norm": 0.06384994834661484,
7941
+ "learning_rate": 3.899248539894757e-05,
7942
+ "loss": 10.3479,
7943
+ "step": 1130
7944
+ },
7945
+ {
7946
+ "epoch": 0.18493990679421143,
7947
+ "grad_norm": 0.07397767901420593,
7948
+ "learning_rate": 3.883506048611206e-05,
7949
+ "loss": 10.3283,
7950
+ "step": 1131
7951
+ },
7952
+ {
7953
+ "epoch": 0.18510342572152727,
7954
+ "grad_norm": 0.07018252462148666,
7955
+ "learning_rate": 3.867787739091691e-05,
7956
+ "loss": 10.3504,
7957
+ "step": 1132
7958
+ },
7959
+ {
7960
+ "epoch": 0.1852669446488431,
7961
+ "grad_norm": 0.08793807029724121,
7962
+ "learning_rate": 3.8520936734790745e-05,
7963
+ "loss": 10.3357,
7964
+ "step": 1133
7965
+ },
7966
+ {
7967
+ "epoch": 0.18543046357615894,
7968
+ "grad_norm": 0.08552634716033936,
7969
+ "learning_rate": 3.836423913820367e-05,
7970
+ "loss": 10.3413,
7971
+ "step": 1134
7972
+ },
7973
+ {
7974
+ "epoch": 0.18559398250347478,
7975
+ "grad_norm": 0.06452400237321854,
7976
+ "learning_rate": 3.820778522066494e-05,
7977
+ "loss": 10.3424,
7978
+ "step": 1135
7979
+ },
7980
+ {
7981
+ "epoch": 0.18575750143079062,
7982
+ "grad_norm": 0.11659888178110123,
7983
+ "learning_rate": 3.805157560072033e-05,
7984
+ "loss": 10.3334,
7985
+ "step": 1136
7986
+ },
7987
+ {
7988
+ "epoch": 0.18592102035810645,
7989
+ "grad_norm": 0.08127418905496597,
7990
+ "learning_rate": 3.789561089594985e-05,
7991
+ "loss": 10.3536,
7992
+ "step": 1137
7993
+ },
7994
+ {
7995
+ "epoch": 0.1860845392854223,
7996
+ "grad_norm": 0.07654475420713425,
7997
+ "learning_rate": 3.77398917229652e-05,
7998
+ "loss": 10.33,
7999
+ "step": 1138
8000
+ },
8001
+ {
8002
+ "epoch": 0.18624805821273813,
8003
+ "grad_norm": 0.07903090119361877,
8004
+ "learning_rate": 3.758441869740731e-05,
8005
+ "loss": 10.3509,
8006
+ "step": 1139
8007
+ },
8008
+ {
8009
+ "epoch": 0.18641157714005396,
8010
+ "grad_norm": 0.07720071822404861,
8011
+ "learning_rate": 3.7429192433944014e-05,
8012
+ "loss": 10.342,
8013
+ "step": 1140
8014
+ },
8015
+ {
8016
+ "epoch": 0.1865750960673698,
8017
+ "grad_norm": 0.08252932876348495,
8018
+ "learning_rate": 3.727421354626756e-05,
8019
+ "loss": 10.3469,
8020
+ "step": 1141
8021
+ },
8022
+ {
8023
+ "epoch": 0.18673861499468564,
8024
+ "grad_norm": 0.09409932792186737,
8025
+ "learning_rate": 3.711948264709218e-05,
8026
+ "loss": 10.3465,
8027
+ "step": 1142
8028
+ },
8029
+ {
8030
+ "epoch": 0.18690213392200147,
8031
+ "grad_norm": 0.09753899276256561,
8032
+ "learning_rate": 3.696500034815168e-05,
8033
+ "loss": 10.3357,
8034
+ "step": 1143
8035
+ },
8036
+ {
8037
+ "epoch": 0.1870656528493173,
8038
+ "grad_norm": 0.07511698454618454,
8039
+ "learning_rate": 3.681076726019704e-05,
8040
+ "loss": 10.3388,
8041
+ "step": 1144
8042
+ },
8043
+ {
8044
+ "epoch": 0.18722917177663315,
8045
+ "grad_norm": 0.06391188502311707,
8046
+ "learning_rate": 3.665678399299388e-05,
8047
+ "loss": 10.3507,
8048
+ "step": 1145
8049
+ },
8050
+ {
8051
+ "epoch": 0.18739269070394898,
8052
+ "grad_norm": 0.0674469992518425,
8053
+ "learning_rate": 3.650305115532028e-05,
8054
+ "loss": 10.3467,
8055
+ "step": 1146
8056
+ },
8057
+ {
8058
+ "epoch": 0.18755620963126482,
8059
+ "grad_norm": 0.07931932061910629,
8060
+ "learning_rate": 3.634956935496411e-05,
8061
+ "loss": 10.3452,
8062
+ "step": 1147
8063
+ },
8064
+ {
8065
+ "epoch": 0.18771972855858066,
8066
+ "grad_norm": 0.08464358747005463,
8067
+ "learning_rate": 3.619633919872083e-05,
8068
+ "loss": 10.35,
8069
+ "step": 1148
8070
+ },
8071
+ {
8072
+ "epoch": 0.1878832474858965,
8073
+ "grad_norm": 0.13273005187511444,
8074
+ "learning_rate": 3.604336129239103e-05,
8075
+ "loss": 10.3488,
8076
+ "step": 1149
8077
+ },
8078
+ {
8079
+ "epoch": 0.18804676641321233,
8080
+ "grad_norm": 0.07931933552026749,
8081
+ "learning_rate": 3.589063624077802e-05,
8082
+ "loss": 10.3452,
8083
+ "step": 1150
8084
+ },
8085
+ {
8086
+ "epoch": 0.18821028534052817,
8087
+ "grad_norm": 0.0843479111790657,
8088
+ "learning_rate": 3.573816464768533e-05,
8089
+ "loss": 10.3364,
8090
+ "step": 1151
8091
+ },
8092
+ {
8093
+ "epoch": 0.188373804267844,
8094
+ "grad_norm": 0.06840098649263382,
8095
+ "learning_rate": 3.5585947115914585e-05,
8096
+ "loss": 10.3425,
8097
+ "step": 1152
8098
+ },
8099
+ {
8100
+ "epoch": 0.18853732319515984,
8101
+ "grad_norm": 0.07091546803712845,
8102
+ "learning_rate": 3.543398424726287e-05,
8103
+ "loss": 10.3517,
8104
+ "step": 1153
8105
+ },
8106
+ {
8107
+ "epoch": 0.18870084212247568,
8108
+ "grad_norm": 0.050506554543972015,
8109
+ "learning_rate": 3.5282276642520515e-05,
8110
+ "loss": 10.348,
8111
+ "step": 1154
8112
+ },
8113
+ {
8114
+ "epoch": 0.1888643610497915,
8115
+ "grad_norm": 0.07132521271705627,
8116
+ "learning_rate": 3.513082490146864e-05,
8117
+ "loss": 10.3462,
8118
+ "step": 1155
8119
+ },
8120
+ {
8121
+ "epoch": 0.18902787997710735,
8122
+ "grad_norm": 0.0785883367061615,
8123
+ "learning_rate": 3.497962962287671e-05,
8124
+ "loss": 10.3456,
8125
+ "step": 1156
8126
+ },
8127
+ {
8128
+ "epoch": 0.18919139890442319,
8129
+ "grad_norm": 0.08366641402244568,
8130
+ "learning_rate": 3.482869140450038e-05,
8131
+ "loss": 10.3391,
8132
+ "step": 1157
8133
+ },
8134
+ {
8135
+ "epoch": 0.18935491783173902,
8136
+ "grad_norm": 0.06656763702630997,
8137
+ "learning_rate": 3.467801084307895e-05,
8138
+ "loss": 10.3466,
8139
+ "step": 1158
8140
+ },
8141
+ {
8142
+ "epoch": 0.18951843675905486,
8143
+ "grad_norm": 0.09059333801269531,
8144
+ "learning_rate": 3.452758853433309e-05,
8145
+ "loss": 10.3499,
8146
+ "step": 1159
8147
+ },
8148
+ {
8149
+ "epoch": 0.1896819556863707,
8150
+ "grad_norm": 0.08396489173173904,
8151
+ "learning_rate": 3.4377425072962465e-05,
8152
+ "loss": 10.3515,
8153
+ "step": 1160
8154
+ },
8155
+ {
8156
+ "epoch": 0.18984547461368653,
8157
+ "grad_norm": 0.08763958513736725,
8158
+ "learning_rate": 3.422752105264329e-05,
8159
+ "loss": 10.3503,
8160
+ "step": 1161
8161
+ },
8162
+ {
8163
+ "epoch": 0.19000899354100237,
8164
+ "grad_norm": 0.09006370604038239,
8165
+ "learning_rate": 3.4077877066026176e-05,
8166
+ "loss": 10.3468,
8167
+ "step": 1162
8168
+ },
8169
+ {
8170
+ "epoch": 0.1901725124683182,
8171
+ "grad_norm": 0.07651616632938385,
8172
+ "learning_rate": 3.3928493704733634e-05,
8173
+ "loss": 10.3509,
8174
+ "step": 1163
8175
+ },
8176
+ {
8177
+ "epoch": 0.19033603139563404,
8178
+ "grad_norm": 0.05758075416088104,
8179
+ "learning_rate": 3.377937155935781e-05,
8180
+ "loss": 10.3465,
8181
+ "step": 1164
8182
+ },
8183
+ {
8184
+ "epoch": 0.19049955032294988,
8185
+ "grad_norm": 0.07791003584861755,
8186
+ "learning_rate": 3.363051121945809e-05,
8187
+ "loss": 10.3541,
8188
+ "step": 1165
8189
+ },
8190
+ {
8191
+ "epoch": 0.19066306925026572,
8192
+ "grad_norm": 0.06766680628061295,
8193
+ "learning_rate": 3.348191327355888e-05,
8194
+ "loss": 10.3398,
8195
+ "step": 1166
8196
+ },
8197
+ {
8198
+ "epoch": 0.19082658817758155,
8199
+ "grad_norm": 0.0724874958395958,
8200
+ "learning_rate": 3.3333578309147065e-05,
8201
+ "loss": 10.344,
8202
+ "step": 1167
8203
+ },
8204
+ {
8205
+ "epoch": 0.1909901071048974,
8206
+ "grad_norm": 0.09860213100910187,
8207
+ "learning_rate": 3.318550691266993e-05,
8208
+ "loss": 10.3421,
8209
+ "step": 1168
8210
+ },
8211
+ {
8212
+ "epoch": 0.19115362603221323,
8213
+ "grad_norm": 0.10376410186290741,
8214
+ "learning_rate": 3.3037699669532715e-05,
8215
+ "loss": 10.3561,
8216
+ "step": 1169
8217
+ },
8218
+ {
8219
+ "epoch": 0.19131714495952906,
8220
+ "grad_norm": 0.09623809158802032,
8221
+ "learning_rate": 3.289015716409631e-05,
8222
+ "loss": 10.3472,
8223
+ "step": 1170
8224
+ },
8225
+ {
8226
+ "epoch": 0.1914806638868449,
8227
+ "grad_norm": 0.1350593864917755,
8228
+ "learning_rate": 3.2742879979675004e-05,
8229
+ "loss": 10.3437,
8230
+ "step": 1171
8231
+ },
8232
+ {
8233
+ "epoch": 0.19164418281416074,
8234
+ "grad_norm": 0.06695779412984848,
8235
+ "learning_rate": 3.259586869853401e-05,
8236
+ "loss": 10.3443,
8237
+ "step": 1172
8238
+ },
8239
+ {
8240
+ "epoch": 0.19180770174147657,
8241
+ "grad_norm": 0.059136200696229935,
8242
+ "learning_rate": 3.244912390188739e-05,
8243
+ "loss": 10.3512,
8244
+ "step": 1173
8245
+ },
8246
+ {
8247
+ "epoch": 0.1919712206687924,
8248
+ "grad_norm": 0.08771318942308426,
8249
+ "learning_rate": 3.2302646169895636e-05,
8250
+ "loss": 10.3457,
8251
+ "step": 1174
8252
+ },
8253
+ {
8254
+ "epoch": 0.19213473959610824,
8255
+ "grad_norm": 0.06953369081020355,
8256
+ "learning_rate": 3.2156436081663356e-05,
8257
+ "loss": 10.3526,
8258
+ "step": 1175
8259
+ },
8260
+ {
8261
+ "epoch": 0.19229825852342408,
8262
+ "grad_norm": 0.05626130476593971,
8263
+ "learning_rate": 3.201049421523709e-05,
8264
+ "loss": 10.3424,
8265
+ "step": 1176
8266
+ },
8267
+ {
8268
+ "epoch": 0.19246177745073992,
8269
+ "grad_norm": 0.10361862182617188,
8270
+ "learning_rate": 3.186482114760282e-05,
8271
+ "loss": 10.3488,
8272
+ "step": 1177
8273
+ },
8274
+ {
8275
+ "epoch": 0.19262529637805575,
8276
+ "grad_norm": 0.11523088067770004,
8277
+ "learning_rate": 3.171941745468395e-05,
8278
+ "loss": 10.3433,
8279
+ "step": 1178
8280
+ },
8281
+ {
8282
+ "epoch": 0.1927888153053716,
8283
+ "grad_norm": 0.09867821633815765,
8284
+ "learning_rate": 3.157428371133889e-05,
8285
+ "loss": 10.3337,
8286
+ "step": 1179
8287
+ },
8288
+ {
8289
+ "epoch": 0.19295233423268743,
8290
+ "grad_norm": 0.07772684097290039,
8291
+ "learning_rate": 3.14294204913587e-05,
8292
+ "loss": 10.3495,
8293
+ "step": 1180
8294
+ },
8295
+ {
8296
+ "epoch": 0.19311585316000326,
8297
+ "grad_norm": 0.13682125508785248,
8298
+ "learning_rate": 3.1284828367465e-05,
8299
+ "loss": 10.3351,
8300
+ "step": 1181
8301
+ },
8302
+ {
8303
+ "epoch": 0.1932793720873191,
8304
+ "grad_norm": 0.08868427574634552,
8305
+ "learning_rate": 3.114050791130766e-05,
8306
+ "loss": 10.3464,
8307
+ "step": 1182
8308
+ },
8309
+ {
8310
+ "epoch": 0.19344289101463494,
8311
+ "grad_norm": 0.07886600494384766,
8312
+ "learning_rate": 3.0996459693462345e-05,
8313
+ "loss": 10.3503,
8314
+ "step": 1183
8315
+ },
8316
+ {
8317
+ "epoch": 0.19360640994195077,
8318
+ "grad_norm": 0.07837754487991333,
8319
+ "learning_rate": 3.085268428342858e-05,
8320
+ "loss": 10.343,
8321
+ "step": 1184
8322
+ },
8323
+ {
8324
+ "epoch": 0.1937699288692666,
8325
+ "grad_norm": 0.10123041272163391,
8326
+ "learning_rate": 3.0709182249627255e-05,
8327
+ "loss": 10.3501,
8328
+ "step": 1185
8329
+ },
8330
+ {
8331
+ "epoch": 0.19393344779658245,
8332
+ "grad_norm": 0.057491470128297806,
8333
+ "learning_rate": 3.056595415939849e-05,
8334
+ "loss": 10.342,
8335
+ "step": 1186
8336
+ },
8337
+ {
8338
+ "epoch": 0.19409696672389828,
8339
+ "grad_norm": 0.07750639319419861,
8340
+ "learning_rate": 3.042300057899933e-05,
8341
+ "loss": 10.3478,
8342
+ "step": 1187
8343
+ },
8344
+ {
8345
+ "epoch": 0.19426048565121412,
8346
+ "grad_norm": 0.08213985711336136,
8347
+ "learning_rate": 3.0280322073601585e-05,
8348
+ "loss": 10.3497,
8349
+ "step": 1188
8350
+ },
8351
+ {
8352
+ "epoch": 0.19442400457852996,
8353
+ "grad_norm": 0.05541076883673668,
8354
+ "learning_rate": 3.0137919207289457e-05,
8355
+ "loss": 10.3512,
8356
+ "step": 1189
8357
+ },
8358
+ {
8359
+ "epoch": 0.1945875235058458,
8360
+ "grad_norm": 0.16687621176242828,
8361
+ "learning_rate": 2.9995792543057478e-05,
8362
+ "loss": 10.3534,
8363
+ "step": 1190
8364
+ },
8365
+ {
8366
+ "epoch": 0.19475104243316163,
8367
+ "grad_norm": 0.0721542164683342,
8368
+ "learning_rate": 2.9853942642808185e-05,
8369
+ "loss": 10.3402,
8370
+ "step": 1191
8371
+ },
8372
+ {
8373
+ "epoch": 0.19491456136047747,
8374
+ "grad_norm": 0.0858822613954544,
8375
+ "learning_rate": 2.9712370067349916e-05,
8376
+ "loss": 10.3414,
8377
+ "step": 1192
8378
+ },
8379
+ {
8380
+ "epoch": 0.1950780802877933,
8381
+ "grad_norm": 0.06304842233657837,
8382
+ "learning_rate": 2.9571075376394642e-05,
8383
+ "loss": 10.3403,
8384
+ "step": 1193
8385
+ },
8386
+ {
8387
+ "epoch": 0.19524159921510914,
8388
+ "grad_norm": 0.08378353714942932,
8389
+ "learning_rate": 2.9430059128555585e-05,
8390
+ "loss": 10.3409,
8391
+ "step": 1194
8392
+ },
8393
+ {
8394
+ "epoch": 0.19524159921510914,
8395
+ "eval_loss": 10.343810081481934,
8396
+ "eval_runtime": 7.2963,
8397
+ "eval_samples_per_second": 352.918,
8398
+ "eval_steps_per_second": 176.528,
8399
+ "step": 1194
8400
  }
8401
  ],
8402
  "logging_steps": 1,
 
8416
  "attributes": {}
8417
  }
8418
  },
8419
+ "total_flos": 15497693429760.0,
8420
  "train_batch_size": 2,
8421
  "trial_name": null,
8422
  "trial_params": null