AleBurzio commited on
Commit
727ace9
1 Parent(s): 25e596b

checkpoint 1200

Browse files
Files changed (7) hide show
  1. optimizer.pt +2 -2
  2. pytorch_model.bin +1 -1
  3. rng_state.pth +1 -1
  4. scaler.pt +1 -1
  5. scheduler.pt +1 -1
  6. trainer_state.json +2284 -11
  7. training_args.bin +2 -2
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e8fd37c526689db3d600f5af8187ab4170545902b0cec89792e3333be94da732
3
- size 1980947461
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:149216126f79d89f96f2dd88f83738259f91516192c7af864119c935c4938c86
3
+ size 1980951621
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a7afe04ca1ffba7ef8a6c18effa9c25a9de82dc7d01bf62981d0a06c3c876a1f
3
  size 990452905
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3260f3d235a97524002927c60208f78db38bb196586f469bb4ec57219d2d76c9
3
  size 990452905
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8ca6f7fabf3653364da7a647df66a6d374135414ef72c10ed041731a46698bfe
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:183919bd52d5297a8eede950b5f2c3f25481765f8a5ff32894b60f70f5b64581
3
  size 14575
scaler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:69601a4659872d2e52d72f3a41240e5cd9328d1812449e5248d470f7bd5df11f
3
  size 557
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:741cefeca9ef427f92406d2d10b81996655e2a9d50eb7aaa9614e6fdd1c9f529
3
  size 557
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d90ce7747f7c68e4fd81ad78afc1143d205716489494d7591c2f0329fc0db1cd
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9edbd55c449de80bf26fda741f0d114df8fd97ac2c7e81667c83f44ee9234726
3
  size 627
trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 13.280975609756098,
5
- "global_step": 850,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -5550,18 +5550,2291 @@
5550
  "step": 850
5551
  },
5552
  {
5553
- "epoch": 13.28,
5554
- "step": 850,
5555
- "total_flos": 1.193214367236096e+18,
5556
- "train_loss": 0.0,
5557
- "train_runtime": 2.117,
5558
- "train_samples_per_second": 96836.906,
5559
- "train_steps_per_second": 247.997
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5560
  }
5561
  ],
5562
- "max_steps": 525,
5563
  "num_train_epochs": 25,
5564
- "total_flos": 1.193214367236096e+18,
5565
  "trial_name": null,
5566
  "trial_params": null
5567
  }
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 18.749268292682927,
5
+ "global_step": 1200,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
5550
  "step": 850
5551
  },
5552
  {
5553
+ "epoch": 13.3,
5554
+ "learning_rate": 0.000244316687138972,
5555
+ "loss": 1.2264,
5556
+ "step": 851
5557
+ },
5558
+ {
5559
+ "epoch": 13.31,
5560
+ "learning_rate": 0.00024380012386289248,
5561
+ "loss": 1.2144,
5562
+ "step": 852
5563
+ },
5564
+ {
5565
+ "epoch": 13.33,
5566
+ "learning_rate": 0.00024328358707153557,
5567
+ "loss": 1.2739,
5568
+ "step": 853
5569
+ },
5570
+ {
5571
+ "epoch": 13.34,
5572
+ "learning_rate": 0.00024276707897145073,
5573
+ "loss": 1.247,
5574
+ "step": 854
5575
+ },
5576
+ {
5577
+ "epoch": 13.36,
5578
+ "learning_rate": 0.0002422506017690649,
5579
+ "loss": 1.232,
5580
+ "step": 855
5581
+ },
5582
+ {
5583
+ "epoch": 13.37,
5584
+ "learning_rate": 0.00024173415767067295,
5585
+ "loss": 1.3068,
5586
+ "step": 856
5587
+ },
5588
+ {
5589
+ "epoch": 13.39,
5590
+ "learning_rate": 0.0002412177488824286,
5591
+ "loss": 1.2301,
5592
+ "step": 857
5593
+ },
5594
+ {
5595
+ "epoch": 13.41,
5596
+ "learning_rate": 0.00024070137761033445,
5597
+ "loss": 1.2606,
5598
+ "step": 858
5599
+ },
5600
+ {
5601
+ "epoch": 13.42,
5602
+ "learning_rate": 0.00024018504606023293,
5603
+ "loss": 1.2397,
5604
+ "step": 859
5605
+ },
5606
+ {
5607
+ "epoch": 13.44,
5608
+ "learning_rate": 0.0002396687564377967,
5609
+ "loss": 1.3012,
5610
+ "step": 860
5611
+ },
5612
+ {
5613
+ "epoch": 13.45,
5614
+ "learning_rate": 0.0002391525109485196,
5615
+ "loss": 1.2032,
5616
+ "step": 861
5617
+ },
5618
+ {
5619
+ "epoch": 13.47,
5620
+ "learning_rate": 0.00023863631179770666,
5621
+ "loss": 1.3246,
5622
+ "step": 862
5623
+ },
5624
+ {
5625
+ "epoch": 13.48,
5626
+ "learning_rate": 0.00023812016119046503,
5627
+ "loss": 1.1968,
5628
+ "step": 863
5629
+ },
5630
+ {
5631
+ "epoch": 13.5,
5632
+ "learning_rate": 0.0002376040613316944,
5633
+ "loss": 1.2726,
5634
+ "step": 864
5635
+ },
5636
+ {
5637
+ "epoch": 13.52,
5638
+ "learning_rate": 0.00023708801442607803,
5639
+ "loss": 1.2574,
5640
+ "step": 865
5641
+ },
5642
+ {
5643
+ "epoch": 13.53,
5644
+ "learning_rate": 0.00023657202267807258,
5645
+ "loss": 1.2215,
5646
+ "step": 866
5647
+ },
5648
+ {
5649
+ "epoch": 13.55,
5650
+ "learning_rate": 0.00023605608829189921,
5651
+ "loss": 1.2118,
5652
+ "step": 867
5653
+ },
5654
+ {
5655
+ "epoch": 13.56,
5656
+ "learning_rate": 0.00023554021347153403,
5657
+ "loss": 1.2433,
5658
+ "step": 868
5659
+ },
5660
+ {
5661
+ "epoch": 13.58,
5662
+ "learning_rate": 0.0002350244004206988,
5663
+ "loss": 1.2434,
5664
+ "step": 869
5665
+ },
5666
+ {
5667
+ "epoch": 13.59,
5668
+ "learning_rate": 0.00023450865134285137,
5669
+ "loss": 1.2695,
5670
+ "step": 870
5671
+ },
5672
+ {
5673
+ "epoch": 13.61,
5674
+ "learning_rate": 0.00023399296844117624,
5675
+ "loss": 1.2494,
5676
+ "step": 871
5677
+ },
5678
+ {
5679
+ "epoch": 13.62,
5680
+ "learning_rate": 0.00023347735391857517,
5681
+ "loss": 1.2801,
5682
+ "step": 872
5683
+ },
5684
+ {
5685
+ "epoch": 13.64,
5686
+ "learning_rate": 0.00023296180997765798,
5687
+ "loss": 1.3121,
5688
+ "step": 873
5689
+ },
5690
+ {
5691
+ "epoch": 13.66,
5692
+ "learning_rate": 0.00023244633882073295,
5693
+ "loss": 1.3019,
5694
+ "step": 874
5695
+ },
5696
+ {
5697
+ "epoch": 13.67,
5698
+ "learning_rate": 0.00023193094264979737,
5699
+ "loss": 1.2655,
5700
+ "step": 875
5701
+ },
5702
+ {
5703
+ "epoch": 13.67,
5704
+ "eval_gen_len": 805.352,
5705
+ "eval_loss": 1.5386887788772583,
5706
+ "eval_rouge1": 56.6127,
5707
+ "eval_rouge2": 24.6239,
5708
+ "eval_rougeL": 26.4088,
5709
+ "eval_rougeLsum": 53.708,
5710
+ "eval_runtime": 896.6875,
5711
+ "eval_samples_per_second": 0.279,
5712
+ "eval_steps_per_second": 0.279,
5713
+ "step": 875
5714
+ },
5715
+ {
5716
+ "epoch": 13.69,
5717
+ "learning_rate": 0.00023141562366652812,
5718
+ "loss": 1.2454,
5719
+ "step": 876
5720
+ },
5721
+ {
5722
+ "epoch": 13.7,
5723
+ "learning_rate": 0.00023090038407227255,
5724
+ "loss": 1.2877,
5725
+ "step": 877
5726
+ },
5727
+ {
5728
+ "epoch": 13.72,
5729
+ "learning_rate": 0.0002303852260680388,
5730
+ "loss": 1.2915,
5731
+ "step": 878
5732
+ },
5733
+ {
5734
+ "epoch": 13.73,
5735
+ "learning_rate": 0.0002298701518544864,
5736
+ "loss": 1.3163,
5737
+ "step": 879
5738
+ },
5739
+ {
5740
+ "epoch": 13.75,
5741
+ "learning_rate": 0.00022935516363191695,
5742
+ "loss": 1.2792,
5743
+ "step": 880
5744
+ },
5745
+ {
5746
+ "epoch": 13.76,
5747
+ "learning_rate": 0.00022884026360026486,
5748
+ "loss": 1.2367,
5749
+ "step": 881
5750
+ },
5751
+ {
5752
+ "epoch": 13.78,
5753
+ "learning_rate": 0.00022832545395908759,
5754
+ "loss": 1.309,
5755
+ "step": 882
5756
+ },
5757
+ {
5758
+ "epoch": 13.8,
5759
+ "learning_rate": 0.00022781073690755668,
5760
+ "loss": 1.2333,
5761
+ "step": 883
5762
+ },
5763
+ {
5764
+ "epoch": 13.81,
5765
+ "learning_rate": 0.00022729611464444795,
5766
+ "loss": 1.249,
5767
+ "step": 884
5768
+ },
5769
+ {
5770
+ "epoch": 13.83,
5771
+ "learning_rate": 0.0002267815893681325,
5772
+ "loss": 1.2565,
5773
+ "step": 885
5774
+ },
5775
+ {
5776
+ "epoch": 13.84,
5777
+ "learning_rate": 0.0002262671632765669,
5778
+ "loss": 1.2797,
5779
+ "step": 886
5780
+ },
5781
+ {
5782
+ "epoch": 13.86,
5783
+ "learning_rate": 0.00022575283856728423,
5784
+ "loss": 1.2498,
5785
+ "step": 887
5786
+ },
5787
+ {
5788
+ "epoch": 13.87,
5789
+ "learning_rate": 0.00022523861743738434,
5790
+ "loss": 1.202,
5791
+ "step": 888
5792
+ },
5793
+ {
5794
+ "epoch": 13.89,
5795
+ "learning_rate": 0.0002247245020835247,
5796
+ "loss": 1.2963,
5797
+ "step": 889
5798
+ },
5799
+ {
5800
+ "epoch": 13.91,
5801
+ "learning_rate": 0.00022421049470191078,
5802
+ "loss": 1.2997,
5803
+ "step": 890
5804
+ },
5805
+ {
5806
+ "epoch": 13.92,
5807
+ "learning_rate": 0.00022369659748828704,
5808
+ "loss": 1.2842,
5809
+ "step": 891
5810
+ },
5811
+ {
5812
+ "epoch": 13.94,
5813
+ "learning_rate": 0.0002231828126379271,
5814
+ "loss": 1.2524,
5815
+ "step": 892
5816
+ },
5817
+ {
5818
+ "epoch": 13.95,
5819
+ "learning_rate": 0.00022266914234562478,
5820
+ "loss": 1.3074,
5821
+ "step": 893
5822
+ },
5823
+ {
5824
+ "epoch": 13.97,
5825
+ "learning_rate": 0.0002221555888056843,
5826
+ "loss": 1.2566,
5827
+ "step": 894
5828
+ },
5829
+ {
5830
+ "epoch": 13.98,
5831
+ "learning_rate": 0.00022164215421191142,
5832
+ "loss": 1.2684,
5833
+ "step": 895
5834
+ },
5835
+ {
5836
+ "epoch": 14.0,
5837
+ "learning_rate": 0.00022112884075760347,
5838
+ "loss": 1.2607,
5839
+ "step": 896
5840
+ },
5841
+ {
5842
+ "epoch": 14.02,
5843
+ "learning_rate": 0.00022061565063554063,
5844
+ "loss": 1.3246,
5845
+ "step": 897
5846
+ },
5847
+ {
5848
+ "epoch": 14.03,
5849
+ "learning_rate": 0.00022010258603797592,
5850
+ "loss": 1.2884,
5851
+ "step": 898
5852
+ },
5853
+ {
5854
+ "epoch": 14.05,
5855
+ "learning_rate": 0.00021958964915662628,
5856
+ "loss": 1.2892,
5857
+ "step": 899
5858
+ },
5859
+ {
5860
+ "epoch": 14.06,
5861
+ "learning_rate": 0.00021907684218266309,
5862
+ "loss": 1.294,
5863
+ "step": 900
5864
+ },
5865
+ {
5866
+ "epoch": 14.06,
5867
+ "eval_gen_len": 817.576,
5868
+ "eval_loss": 1.5446990728378296,
5869
+ "eval_rouge1": 56.7767,
5870
+ "eval_rouge2": 24.7515,
5871
+ "eval_rougeL": 26.682,
5872
+ "eval_rougeLsum": 53.7647,
5873
+ "eval_runtime": 909.4637,
5874
+ "eval_samples_per_second": 0.275,
5875
+ "eval_steps_per_second": 0.275,
5876
+ "step": 900
5877
+ },
5878
+ {
5879
+ "epoch": 14.08,
5880
+ "learning_rate": 0.00021856416730670284,
5881
+ "loss": 1.233,
5882
+ "step": 901
5883
+ },
5884
+ {
5885
+ "epoch": 14.09,
5886
+ "learning_rate": 0.00021805162671879758,
5887
+ "loss": 1.238,
5888
+ "step": 902
5889
+ },
5890
+ {
5891
+ "epoch": 14.11,
5892
+ "learning_rate": 0.00021753922260842572,
5893
+ "loss": 1.2278,
5894
+ "step": 903
5895
+ },
5896
+ {
5897
+ "epoch": 14.12,
5898
+ "learning_rate": 0.00021702695716448276,
5899
+ "loss": 1.269,
5900
+ "step": 904
5901
+ },
5902
+ {
5903
+ "epoch": 14.14,
5904
+ "learning_rate": 0.0002165148325752719,
5905
+ "loss": 1.279,
5906
+ "step": 905
5907
+ },
5908
+ {
5909
+ "epoch": 14.16,
5910
+ "learning_rate": 0.0002160028510284944,
5911
+ "loss": 1.2223,
5912
+ "step": 906
5913
+ },
5914
+ {
5915
+ "epoch": 14.17,
5916
+ "learning_rate": 0.0002154910147112406,
5917
+ "loss": 1.1541,
5918
+ "step": 907
5919
+ },
5920
+ {
5921
+ "epoch": 14.19,
5922
+ "learning_rate": 0.00021497932580998052,
5923
+ "loss": 1.2241,
5924
+ "step": 908
5925
+ },
5926
+ {
5927
+ "epoch": 14.2,
5928
+ "learning_rate": 0.0002144677865105544,
5929
+ "loss": 1.2448,
5930
+ "step": 909
5931
+ },
5932
+ {
5933
+ "epoch": 14.22,
5934
+ "learning_rate": 0.00021395639899816332,
5935
+ "loss": 1.2976,
5936
+ "step": 910
5937
+ },
5938
+ {
5939
+ "epoch": 14.23,
5940
+ "learning_rate": 0.00021344516545736007,
5941
+ "loss": 1.1451,
5942
+ "step": 911
5943
+ },
5944
+ {
5945
+ "epoch": 14.25,
5946
+ "learning_rate": 0.00021293408807203948,
5947
+ "loss": 1.2736,
5948
+ "step": 912
5949
+ },
5950
+ {
5951
+ "epoch": 14.27,
5952
+ "learning_rate": 0.00021242316902542974,
5953
+ "loss": 1.308,
5954
+ "step": 913
5955
+ },
5956
+ {
5957
+ "epoch": 14.28,
5958
+ "learning_rate": 0.00021191241050008225,
5959
+ "loss": 1.2435,
5960
+ "step": 914
5961
+ },
5962
+ {
5963
+ "epoch": 14.3,
5964
+ "learning_rate": 0.00021140181467786288,
5965
+ "loss": 1.2843,
5966
+ "step": 915
5967
+ },
5968
+ {
5969
+ "epoch": 14.31,
5970
+ "learning_rate": 0.00021089138373994224,
5971
+ "loss": 1.216,
5972
+ "step": 916
5973
+ },
5974
+ {
5975
+ "epoch": 14.33,
5976
+ "learning_rate": 0.00021038111986678703,
5977
+ "loss": 1.1999,
5978
+ "step": 917
5979
+ },
5980
+ {
5981
+ "epoch": 14.34,
5982
+ "learning_rate": 0.00020987102523814988,
5983
+ "loss": 1.244,
5984
+ "step": 918
5985
+ },
5986
+ {
5987
+ "epoch": 14.36,
5988
+ "learning_rate": 0.00020936110203306058,
5989
+ "loss": 1.2254,
5990
+ "step": 919
5991
+ },
5992
+ {
5993
+ "epoch": 14.37,
5994
+ "learning_rate": 0.00020885135242981647,
5995
+ "loss": 1.2589,
5996
+ "step": 920
5997
+ },
5998
+ {
5999
+ "epoch": 14.39,
6000
+ "learning_rate": 0.00020834177860597374,
6001
+ "loss": 1.2369,
6002
+ "step": 921
6003
+ },
6004
+ {
6005
+ "epoch": 14.41,
6006
+ "learning_rate": 0.0002078323827383372,
6007
+ "loss": 1.2228,
6008
+ "step": 922
6009
+ },
6010
+ {
6011
+ "epoch": 14.42,
6012
+ "learning_rate": 0.00020732316700295168,
6013
+ "loss": 1.3307,
6014
+ "step": 923
6015
+ },
6016
+ {
6017
+ "epoch": 14.44,
6018
+ "learning_rate": 0.0002068141335750925,
6019
+ "loss": 1.2378,
6020
+ "step": 924
6021
+ },
6022
+ {
6023
+ "epoch": 14.45,
6024
+ "learning_rate": 0.00020630528462925603,
6025
+ "loss": 1.2525,
6026
+ "step": 925
6027
+ },
6028
+ {
6029
+ "epoch": 14.45,
6030
+ "eval_gen_len": 800.032,
6031
+ "eval_loss": 1.543728232383728,
6032
+ "eval_rouge1": 56.4674,
6033
+ "eval_rouge2": 24.6172,
6034
+ "eval_rougeL": 26.5266,
6035
+ "eval_rougeLsum": 53.5669,
6036
+ "eval_runtime": 891.0212,
6037
+ "eval_samples_per_second": 0.281,
6038
+ "eval_steps_per_second": 0.281,
6039
+ "step": 925
6040
+ },
6041
+ {
6042
+ "epoch": 14.47,
6043
+ "learning_rate": 0.000205796622339151,
6044
+ "loss": 1.2453,
6045
+ "step": 926
6046
+ },
6047
+ {
6048
+ "epoch": 14.48,
6049
+ "learning_rate": 0.00020528814887768837,
6050
+ "loss": 1.2626,
6051
+ "step": 927
6052
+ },
6053
+ {
6054
+ "epoch": 14.5,
6055
+ "learning_rate": 0.0002047798664169726,
6056
+ "loss": 1.252,
6057
+ "step": 928
6058
+ },
6059
+ {
6060
+ "epoch": 14.52,
6061
+ "learning_rate": 0.0002042717771282921,
6062
+ "loss": 1.1964,
6063
+ "step": 929
6064
+ },
6065
+ {
6066
+ "epoch": 14.53,
6067
+ "learning_rate": 0.00020376388318211043,
6068
+ "loss": 1.2156,
6069
+ "step": 930
6070
+ },
6071
+ {
6072
+ "epoch": 14.55,
6073
+ "learning_rate": 0.00020325618674805636,
6074
+ "loss": 1.1582,
6075
+ "step": 931
6076
+ },
6077
+ {
6078
+ "epoch": 14.56,
6079
+ "learning_rate": 0.00020274868999491498,
6080
+ "loss": 1.2684,
6081
+ "step": 932
6082
+ },
6083
+ {
6084
+ "epoch": 14.58,
6085
+ "learning_rate": 0.00020224139509061837,
6086
+ "loss": 1.1987,
6087
+ "step": 933
6088
+ },
6089
+ {
6090
+ "epoch": 14.59,
6091
+ "learning_rate": 0.00020173430420223663,
6092
+ "loss": 1.2351,
6093
+ "step": 934
6094
+ },
6095
+ {
6096
+ "epoch": 14.61,
6097
+ "learning_rate": 0.00020122741949596797,
6098
+ "loss": 1.2513,
6099
+ "step": 935
6100
+ },
6101
+ {
6102
+ "epoch": 14.62,
6103
+ "learning_rate": 0.00020072074313712995,
6104
+ "loss": 1.2079,
6105
+ "step": 936
6106
+ },
6107
+ {
6108
+ "epoch": 14.64,
6109
+ "learning_rate": 0.0002002142772901502,
6110
+ "loss": 1.1933,
6111
+ "step": 937
6112
+ },
6113
+ {
6114
+ "epoch": 14.66,
6115
+ "learning_rate": 0.0001997080241185569,
6116
+ "loss": 1.1643,
6117
+ "step": 938
6118
+ },
6119
+ {
6120
+ "epoch": 14.67,
6121
+ "learning_rate": 0.00019920198578497002,
6122
+ "loss": 1.264,
6123
+ "step": 939
6124
+ },
6125
+ {
6126
+ "epoch": 14.69,
6127
+ "learning_rate": 0.00019869616445109147,
6128
+ "loss": 1.2386,
6129
+ "step": 940
6130
+ },
6131
+ {
6132
+ "epoch": 14.7,
6133
+ "learning_rate": 0.00019819056227769633,
6134
+ "loss": 1.2513,
6135
+ "step": 941
6136
+ },
6137
+ {
6138
+ "epoch": 14.72,
6139
+ "learning_rate": 0.00019768518142462336,
6140
+ "loss": 1.2206,
6141
+ "step": 942
6142
+ },
6143
+ {
6144
+ "epoch": 14.73,
6145
+ "learning_rate": 0.00019718002405076616,
6146
+ "loss": 1.2685,
6147
+ "step": 943
6148
+ },
6149
+ {
6150
+ "epoch": 14.75,
6151
+ "learning_rate": 0.00019667509231406332,
6152
+ "loss": 1.2362,
6153
+ "step": 944
6154
+ },
6155
+ {
6156
+ "epoch": 14.76,
6157
+ "learning_rate": 0.00019617038837148977,
6158
+ "loss": 1.2189,
6159
+ "step": 945
6160
+ },
6161
+ {
6162
+ "epoch": 14.78,
6163
+ "learning_rate": 0.0001956659143790471,
6164
+ "loss": 1.2744,
6165
+ "step": 946
6166
+ },
6167
+ {
6168
+ "epoch": 14.8,
6169
+ "learning_rate": 0.00019516167249175503,
6170
+ "loss": 1.2063,
6171
+ "step": 947
6172
+ },
6173
+ {
6174
+ "epoch": 14.81,
6175
+ "learning_rate": 0.00019465766486364143,
6176
+ "loss": 1.2603,
6177
+ "step": 948
6178
+ },
6179
+ {
6180
+ "epoch": 14.83,
6181
+ "learning_rate": 0.00019415389364773345,
6182
+ "loss": 1.2424,
6183
+ "step": 949
6184
+ },
6185
+ {
6186
+ "epoch": 14.84,
6187
+ "learning_rate": 0.00019365036099604853,
6188
+ "loss": 1.3088,
6189
+ "step": 950
6190
+ },
6191
+ {
6192
+ "epoch": 14.84,
6193
+ "eval_gen_len": 789.032,
6194
+ "eval_loss": 1.5428788661956787,
6195
+ "eval_rouge1": 56.5205,
6196
+ "eval_rouge2": 24.6994,
6197
+ "eval_rougeL": 26.701,
6198
+ "eval_rougeLsum": 53.6155,
6199
+ "eval_runtime": 880.5733,
6200
+ "eval_samples_per_second": 0.284,
6201
+ "eval_steps_per_second": 0.284,
6202
+ "step": 950
6203
+ },
6204
+ {
6205
+ "epoch": 14.86,
6206
+ "learning_rate": 0.00019314706905958467,
6207
+ "loss": 1.3325,
6208
+ "step": 951
6209
+ },
6210
+ {
6211
+ "epoch": 14.87,
6212
+ "learning_rate": 0.00019264401998831212,
6213
+ "loss": 1.2646,
6214
+ "step": 952
6215
+ },
6216
+ {
6217
+ "epoch": 14.89,
6218
+ "learning_rate": 0.0001921412159311632,
6219
+ "loss": 1.2284,
6220
+ "step": 953
6221
+ },
6222
+ {
6223
+ "epoch": 14.91,
6224
+ "learning_rate": 0.00019163865903602372,
6225
+ "loss": 1.2927,
6226
+ "step": 954
6227
+ },
6228
+ {
6229
+ "epoch": 14.92,
6230
+ "learning_rate": 0.00019113635144972355,
6231
+ "loss": 1.2324,
6232
+ "step": 955
6233
+ },
6234
+ {
6235
+ "epoch": 14.94,
6236
+ "learning_rate": 0.00019063429531802786,
6237
+ "loss": 1.2576,
6238
+ "step": 956
6239
+ },
6240
+ {
6241
+ "epoch": 14.95,
6242
+ "learning_rate": 0.00019013249278562738,
6243
+ "loss": 1.2009,
6244
+ "step": 957
6245
+ },
6246
+ {
6247
+ "epoch": 14.97,
6248
+ "learning_rate": 0.00018963094599612956,
6249
+ "loss": 1.2031,
6250
+ "step": 958
6251
+ },
6252
+ {
6253
+ "epoch": 14.98,
6254
+ "learning_rate": 0.00018912965709204932,
6255
+ "loss": 1.2318,
6256
+ "step": 959
6257
+ },
6258
+ {
6259
+ "epoch": 15.0,
6260
+ "learning_rate": 0.00018862862821480023,
6261
+ "loss": 1.2538,
6262
+ "step": 960
6263
+ },
6264
+ {
6265
+ "epoch": 15.02,
6266
+ "learning_rate": 0.00018812786150468468,
6267
+ "loss": 1.2972,
6268
+ "step": 961
6269
+ },
6270
+ {
6271
+ "epoch": 15.03,
6272
+ "learning_rate": 0.00018762735910088542,
6273
+ "loss": 1.2474,
6274
+ "step": 962
6275
+ },
6276
+ {
6277
+ "epoch": 15.05,
6278
+ "learning_rate": 0.00018712712314145587,
6279
+ "loss": 1.2064,
6280
+ "step": 963
6281
+ },
6282
+ {
6283
+ "epoch": 15.06,
6284
+ "learning_rate": 0.00018662715576331148,
6285
+ "loss": 1.2912,
6286
+ "step": 964
6287
+ },
6288
+ {
6289
+ "epoch": 15.08,
6290
+ "learning_rate": 0.00018612745910222037,
6291
+ "loss": 1.186,
6292
+ "step": 965
6293
+ },
6294
+ {
6295
+ "epoch": 15.09,
6296
+ "learning_rate": 0.00018562803529279404,
6297
+ "loss": 1.1969,
6298
+ "step": 966
6299
+ },
6300
+ {
6301
+ "epoch": 15.11,
6302
+ "learning_rate": 0.00018512888646847846,
6303
+ "loss": 1.1615,
6304
+ "step": 967
6305
+ },
6306
+ {
6307
+ "epoch": 15.12,
6308
+ "learning_rate": 0.00018463001476154507,
6309
+ "loss": 1.216,
6310
+ "step": 968
6311
+ },
6312
+ {
6313
+ "epoch": 15.14,
6314
+ "learning_rate": 0.00018413142230308137,
6315
+ "loss": 1.2415,
6316
+ "step": 969
6317
+ },
6318
+ {
6319
+ "epoch": 15.16,
6320
+ "learning_rate": 0.000183633111222982,
6321
+ "loss": 1.2929,
6322
+ "step": 970
6323
+ },
6324
+ {
6325
+ "epoch": 15.17,
6326
+ "learning_rate": 0.00018313508364993947,
6327
+ "loss": 1.2413,
6328
+ "step": 971
6329
+ },
6330
+ {
6331
+ "epoch": 15.19,
6332
+ "learning_rate": 0.0001826373417114355,
6333
+ "loss": 1.2335,
6334
+ "step": 972
6335
+ },
6336
+ {
6337
+ "epoch": 15.2,
6338
+ "learning_rate": 0.00018213988753373146,
6339
+ "loss": 1.1665,
6340
+ "step": 973
6341
+ },
6342
+ {
6343
+ "epoch": 15.22,
6344
+ "learning_rate": 0.0001816427232418594,
6345
+ "loss": 1.2116,
6346
+ "step": 974
6347
+ },
6348
+ {
6349
+ "epoch": 15.23,
6350
+ "learning_rate": 0.00018114585095961306,
6351
+ "loss": 1.2124,
6352
+ "step": 975
6353
+ },
6354
+ {
6355
+ "epoch": 15.23,
6356
+ "eval_gen_len": 790.376,
6357
+ "eval_loss": 1.5507651567459106,
6358
+ "eval_rouge1": 56.7924,
6359
+ "eval_rouge2": 24.6834,
6360
+ "eval_rougeL": 26.3234,
6361
+ "eval_rougeLsum": 53.8648,
6362
+ "eval_runtime": 883.2222,
6363
+ "eval_samples_per_second": 0.283,
6364
+ "eval_steps_per_second": 0.283,
6365
+ "step": 975
6366
+ },
6367
+ {
6368
+ "epoch": 15.25,
6369
+ "learning_rate": 0.00018064927280953891,
6370
+ "loss": 1.2773,
6371
+ "step": 976
6372
+ },
6373
+ {
6374
+ "epoch": 15.27,
6375
+ "learning_rate": 0.00018015299091292668,
6376
+ "loss": 1.2097,
6377
+ "step": 977
6378
+ },
6379
+ {
6380
+ "epoch": 15.28,
6381
+ "learning_rate": 0.0001796570073898009,
6382
+ "loss": 1.215,
6383
+ "step": 978
6384
+ },
6385
+ {
6386
+ "epoch": 15.3,
6387
+ "learning_rate": 0.0001791613243589112,
6388
+ "loss": 1.3315,
6389
+ "step": 979
6390
+ },
6391
+ {
6392
+ "epoch": 15.31,
6393
+ "learning_rate": 0.00017866594393772372,
6394
+ "loss": 1.2595,
6395
+ "step": 980
6396
+ },
6397
+ {
6398
+ "epoch": 15.33,
6399
+ "learning_rate": 0.0001781708682424118,
6400
+ "loss": 1.234,
6401
+ "step": 981
6402
+ },
6403
+ {
6404
+ "epoch": 15.34,
6405
+ "learning_rate": 0.00017767609938784727,
6406
+ "loss": 1.1581,
6407
+ "step": 982
6408
+ },
6409
+ {
6410
+ "epoch": 15.36,
6411
+ "learning_rate": 0.00017718163948759086,
6412
+ "loss": 1.231,
6413
+ "step": 983
6414
+ },
6415
+ {
6416
+ "epoch": 15.37,
6417
+ "learning_rate": 0.00017668749065388384,
6418
+ "loss": 1.2202,
6419
+ "step": 984
6420
+ },
6421
+ {
6422
+ "epoch": 15.39,
6423
+ "learning_rate": 0.0001761936549976384,
6424
+ "loss": 1.2636,
6425
+ "step": 985
6426
+ },
6427
+ {
6428
+ "epoch": 15.41,
6429
+ "learning_rate": 0.00017570013462842905,
6430
+ "loss": 1.2869,
6431
+ "step": 986
6432
+ },
6433
+ {
6434
+ "epoch": 15.42,
6435
+ "learning_rate": 0.00017520693165448337,
6436
+ "loss": 1.2041,
6437
+ "step": 987
6438
+ },
6439
+ {
6440
+ "epoch": 15.44,
6441
+ "learning_rate": 0.00017471404818267318,
6442
+ "loss": 1.2307,
6443
+ "step": 988
6444
+ },
6445
+ {
6446
+ "epoch": 15.45,
6447
+ "learning_rate": 0.00017422148631850525,
6448
+ "loss": 1.2112,
6449
+ "step": 989
6450
+ },
6451
+ {
6452
+ "epoch": 15.47,
6453
+ "learning_rate": 0.0001737292481661128,
6454
+ "loss": 1.2476,
6455
+ "step": 990
6456
+ },
6457
+ {
6458
+ "epoch": 15.48,
6459
+ "learning_rate": 0.00017323733582824596,
6460
+ "loss": 1.3425,
6461
+ "step": 991
6462
+ },
6463
+ {
6464
+ "epoch": 15.5,
6465
+ "learning_rate": 0.00017274575140626317,
6466
+ "loss": 1.3227,
6467
+ "step": 992
6468
+ },
6469
+ {
6470
+ "epoch": 15.52,
6471
+ "learning_rate": 0.000172254497000122,
6472
+ "loss": 1.2707,
6473
+ "step": 993
6474
+ },
6475
+ {
6476
+ "epoch": 15.53,
6477
+ "learning_rate": 0.00017176357470837024,
6478
+ "loss": 1.2576,
6479
+ "step": 994
6480
+ },
6481
+ {
6482
+ "epoch": 15.55,
6483
+ "learning_rate": 0.00017127298662813706,
6484
+ "loss": 1.1688,
6485
+ "step": 995
6486
+ },
6487
+ {
6488
+ "epoch": 15.56,
6489
+ "learning_rate": 0.0001707827348551239,
6490
+ "loss": 1.2615,
6491
+ "step": 996
6492
+ },
6493
+ {
6494
+ "epoch": 15.58,
6495
+ "learning_rate": 0.00017029282148359553,
6496
+ "loss": 1.2438,
6497
+ "step": 997
6498
+ },
6499
+ {
6500
+ "epoch": 15.59,
6501
+ "learning_rate": 0.00016980324860637106,
6502
+ "loss": 1.1954,
6503
+ "step": 998
6504
+ },
6505
+ {
6506
+ "epoch": 15.61,
6507
+ "learning_rate": 0.00016931401831481519,
6508
+ "loss": 1.1599,
6509
+ "step": 999
6510
+ },
6511
+ {
6512
+ "epoch": 15.62,
6513
+ "learning_rate": 0.00016882513269882916,
6514
+ "loss": 1.2046,
6515
+ "step": 1000
6516
+ },
6517
+ {
6518
+ "epoch": 15.62,
6519
+ "eval_gen_len": 822.16,
6520
+ "eval_loss": 1.5468982458114624,
6521
+ "eval_rouge1": 57.0844,
6522
+ "eval_rouge2": 24.9798,
6523
+ "eval_rougeL": 26.8697,
6524
+ "eval_rougeLsum": 54.1281,
6525
+ "eval_runtime": 915.7316,
6526
+ "eval_samples_per_second": 0.273,
6527
+ "eval_steps_per_second": 0.273,
6528
+ "step": 1000
6529
+ },
6530
+ {
6531
+ "epoch": 15.64,
6532
+ "learning_rate": 0.00016833659384684168,
6533
+ "loss": 1.2254,
6534
+ "step": 1001
6535
+ },
6536
+ {
6537
+ "epoch": 15.66,
6538
+ "learning_rate": 0.0001678484038458003,
6539
+ "loss": 1.1956,
6540
+ "step": 1002
6541
+ },
6542
+ {
6543
+ "epoch": 15.67,
6544
+ "learning_rate": 0.0001673605647811623,
6545
+ "loss": 1.2027,
6546
+ "step": 1003
6547
+ },
6548
+ {
6549
+ "epoch": 15.69,
6550
+ "learning_rate": 0.00016687307873688583,
6551
+ "loss": 1.2073,
6552
+ "step": 1004
6553
+ },
6554
+ {
6555
+ "epoch": 15.7,
6556
+ "learning_rate": 0.00016638594779542094,
6557
+ "loss": 1.2126,
6558
+ "step": 1005
6559
+ },
6560
+ {
6561
+ "epoch": 15.72,
6562
+ "learning_rate": 0.00016589917403770076,
6563
+ "loss": 1.1758,
6564
+ "step": 1006
6565
+ },
6566
+ {
6567
+ "epoch": 15.73,
6568
+ "learning_rate": 0.00016541275954313258,
6569
+ "loss": 1.2036,
6570
+ "step": 1007
6571
+ },
6572
+ {
6573
+ "epoch": 15.75,
6574
+ "learning_rate": 0.00016492670638958924,
6575
+ "loss": 1.2371,
6576
+ "step": 1008
6577
+ },
6578
+ {
6579
+ "epoch": 15.76,
6580
+ "learning_rate": 0.00016444101665339967,
6581
+ "loss": 1.2794,
6582
+ "step": 1009
6583
+ },
6584
+ {
6585
+ "epoch": 15.78,
6586
+ "learning_rate": 0.00016395569240934042,
6587
+ "loss": 1.2055,
6588
+ "step": 1010
6589
+ },
6590
+ {
6591
+ "epoch": 15.8,
6592
+ "learning_rate": 0.0001634707357306267,
6593
+ "loss": 1.2402,
6594
+ "step": 1011
6595
+ },
6596
+ {
6597
+ "epoch": 15.81,
6598
+ "learning_rate": 0.00016298614868890388,
6599
+ "loss": 1.2223,
6600
+ "step": 1012
6601
+ },
6602
+ {
6603
+ "epoch": 15.83,
6604
+ "learning_rate": 0.0001625019333542379,
6605
+ "loss": 1.2268,
6606
+ "step": 1013
6607
+ },
6608
+ {
6609
+ "epoch": 15.84,
6610
+ "learning_rate": 0.00016201809179510702,
6611
+ "loss": 1.1779,
6612
+ "step": 1014
6613
+ },
6614
+ {
6615
+ "epoch": 15.86,
6616
+ "learning_rate": 0.0001615346260783926,
6617
+ "loss": 1.263,
6618
+ "step": 1015
6619
+ },
6620
+ {
6621
+ "epoch": 15.87,
6622
+ "learning_rate": 0.00016105153826937086,
6623
+ "loss": 1.2173,
6624
+ "step": 1016
6625
+ },
6626
+ {
6627
+ "epoch": 15.89,
6628
+ "learning_rate": 0.0001605688304317034,
6629
+ "loss": 1.2335,
6630
+ "step": 1017
6631
+ },
6632
+ {
6633
+ "epoch": 15.91,
6634
+ "learning_rate": 0.0001600865046274287,
6635
+ "loss": 1.1882,
6636
+ "step": 1018
6637
+ },
6638
+ {
6639
+ "epoch": 15.92,
6640
+ "learning_rate": 0.0001596045629169532,
6641
+ "loss": 1.2563,
6642
+ "step": 1019
6643
+ },
6644
+ {
6645
+ "epoch": 15.94,
6646
+ "learning_rate": 0.0001591230073590425,
6647
+ "loss": 1.2362,
6648
+ "step": 1020
6649
+ },
6650
+ {
6651
+ "epoch": 15.95,
6652
+ "learning_rate": 0.00015864184001081308,
6653
+ "loss": 1.1643,
6654
+ "step": 1021
6655
+ },
6656
+ {
6657
+ "epoch": 15.97,
6658
+ "learning_rate": 0.00015816106292772253,
6659
+ "loss": 1.2467,
6660
+ "step": 1022
6661
+ },
6662
+ {
6663
+ "epoch": 15.98,
6664
+ "learning_rate": 0.00015768067816356157,
6665
+ "loss": 1.2112,
6666
+ "step": 1023
6667
+ },
6668
+ {
6669
+ "epoch": 16.0,
6670
+ "learning_rate": 0.00015720068777044476,
6671
+ "loss": 1.2221,
6672
+ "step": 1024
6673
+ },
6674
+ {
6675
+ "epoch": 16.02,
6676
+ "learning_rate": 0.00015672109379880248,
6677
+ "loss": 1.3096,
6678
+ "step": 1025
6679
+ },
6680
+ {
6681
+ "epoch": 16.02,
6682
+ "eval_gen_len": 809.748,
6683
+ "eval_loss": 1.5421111583709717,
6684
+ "eval_rouge1": 57.2115,
6685
+ "eval_rouge2": 25.1487,
6686
+ "eval_rougeL": 26.7475,
6687
+ "eval_rougeLsum": 54.3755,
6688
+ "eval_runtime": 902.5744,
6689
+ "eval_samples_per_second": 0.277,
6690
+ "eval_steps_per_second": 0.277,
6691
+ "step": 1025
6692
+ },
6693
+ {
6694
+ "epoch": 16.03,
6695
+ "learning_rate": 0.0001562418982973711,
6696
+ "loss": 1.2714,
6697
+ "step": 1026
6698
+ },
6699
+ {
6700
+ "epoch": 16.05,
6701
+ "learning_rate": 0.0001557631033131852,
6702
+ "loss": 1.2757,
6703
+ "step": 1027
6704
+ },
6705
+ {
6706
+ "epoch": 16.06,
6707
+ "learning_rate": 0.00015528471089156805,
6708
+ "loss": 1.2074,
6709
+ "step": 1028
6710
+ },
6711
+ {
6712
+ "epoch": 16.08,
6713
+ "learning_rate": 0.00015480672307612375,
6714
+ "loss": 1.1999,
6715
+ "step": 1029
6716
+ },
6717
+ {
6718
+ "epoch": 16.09,
6719
+ "learning_rate": 0.00015432914190872756,
6720
+ "loss": 1.2254,
6721
+ "step": 1030
6722
+ },
6723
+ {
6724
+ "epoch": 16.11,
6725
+ "learning_rate": 0.00015385196942951785,
6726
+ "loss": 1.1717,
6727
+ "step": 1031
6728
+ },
6729
+ {
6730
+ "epoch": 16.12,
6731
+ "learning_rate": 0.000153375207676887,
6732
+ "loss": 1.2264,
6733
+ "step": 1032
6734
+ },
6735
+ {
6736
+ "epoch": 16.14,
6737
+ "learning_rate": 0.00015289885868747282,
6738
+ "loss": 1.2429,
6739
+ "step": 1033
6740
+ },
6741
+ {
6742
+ "epoch": 16.16,
6743
+ "learning_rate": 0.00015242292449615025,
6744
+ "loss": 1.2632,
6745
+ "step": 1034
6746
+ },
6747
+ {
6748
+ "epoch": 16.17,
6749
+ "learning_rate": 0.00015194740713602185,
6750
+ "loss": 1.106,
6751
+ "step": 1035
6752
+ },
6753
+ {
6754
+ "epoch": 16.19,
6755
+ "learning_rate": 0.00015147230863840966,
6756
+ "loss": 1.1791,
6757
+ "step": 1036
6758
+ },
6759
+ {
6760
+ "epoch": 16.2,
6761
+ "learning_rate": 0.0001509976310328464,
6762
+ "loss": 1.2164,
6763
+ "step": 1037
6764
+ },
6765
+ {
6766
+ "epoch": 16.22,
6767
+ "learning_rate": 0.0001505233763470672,
6768
+ "loss": 1.1441,
6769
+ "step": 1038
6770
+ },
6771
+ {
6772
+ "epoch": 16.23,
6773
+ "learning_rate": 0.00015004954660699998,
6774
+ "loss": 1.2251,
6775
+ "step": 1039
6776
+ },
6777
+ {
6778
+ "epoch": 16.25,
6779
+ "learning_rate": 0.0001495761438367577,
6780
+ "loss": 1.2343,
6781
+ "step": 1040
6782
+ },
6783
+ {
6784
+ "epoch": 16.27,
6785
+ "learning_rate": 0.00014910317005862922,
6786
+ "loss": 1.1249,
6787
+ "step": 1041
6788
+ },
6789
+ {
6790
+ "epoch": 16.28,
6791
+ "learning_rate": 0.00014863062729307108,
6792
+ "loss": 1.1402,
6793
+ "step": 1042
6794
+ },
6795
+ {
6796
+ "epoch": 16.3,
6797
+ "learning_rate": 0.0001481585175586984,
6798
+ "loss": 1.254,
6799
+ "step": 1043
6800
+ },
6801
+ {
6802
+ "epoch": 16.31,
6803
+ "learning_rate": 0.0001476868428722765,
6804
+ "loss": 1.1773,
6805
+ "step": 1044
6806
+ },
6807
+ {
6808
+ "epoch": 16.33,
6809
+ "learning_rate": 0.00014721560524871236,
6810
+ "loss": 1.2251,
6811
+ "step": 1045
6812
+ },
6813
+ {
6814
+ "epoch": 16.34,
6815
+ "learning_rate": 0.0001467448067010456,
6816
+ "loss": 1.2379,
6817
+ "step": 1046
6818
+ },
6819
+ {
6820
+ "epoch": 16.36,
6821
+ "learning_rate": 0.00014627444924044067,
6822
+ "loss": 1.2196,
6823
+ "step": 1047
6824
+ },
6825
+ {
6826
+ "epoch": 16.37,
6827
+ "learning_rate": 0.00014580453487617745,
6828
+ "loss": 1.2115,
6829
+ "step": 1048
6830
+ },
6831
+ {
6832
+ "epoch": 16.39,
6833
+ "learning_rate": 0.00014533506561564306,
6834
+ "loss": 1.2273,
6835
+ "step": 1049
6836
+ },
6837
+ {
6838
+ "epoch": 16.41,
6839
+ "learning_rate": 0.0001448660434643231,
6840
+ "loss": 1.2388,
6841
+ "step": 1050
6842
+ },
6843
+ {
6844
+ "epoch": 16.41,
6845
+ "eval_gen_len": 796.94,
6846
+ "eval_loss": 1.5498594045639038,
6847
+ "eval_rouge1": 57.0084,
6848
+ "eval_rouge2": 25.0799,
6849
+ "eval_rougeL": 26.7496,
6850
+ "eval_rougeLsum": 54.1173,
6851
+ "eval_runtime": 870.1848,
6852
+ "eval_samples_per_second": 0.287,
6853
+ "eval_steps_per_second": 0.287,
6854
+ "step": 1050
6855
+ },
6856
+ {
6857
+ "epoch": 16.42,
6858
+ "learning_rate": 0.0001443974704257936,
6859
+ "loss": 1.2485,
6860
+ "step": 1051
6861
+ },
6862
+ {
6863
+ "epoch": 16.44,
6864
+ "learning_rate": 0.00014392934850171162,
6865
+ "loss": 1.2033,
6866
+ "step": 1052
6867
+ },
6868
+ {
6869
+ "epoch": 16.45,
6870
+ "learning_rate": 0.00014346167969180734,
6871
+ "loss": 1.2272,
6872
+ "step": 1053
6873
+ },
6874
+ {
6875
+ "epoch": 16.47,
6876
+ "learning_rate": 0.00014299446599387524,
6877
+ "loss": 1.2266,
6878
+ "step": 1054
6879
+ },
6880
+ {
6881
+ "epoch": 16.48,
6882
+ "learning_rate": 0.00014252770940376586,
6883
+ "loss": 1.1934,
6884
+ "step": 1055
6885
+ },
6886
+ {
6887
+ "epoch": 16.5,
6888
+ "learning_rate": 0.0001420614119153768,
6889
+ "loss": 1.19,
6890
+ "step": 1056
6891
+ },
6892
+ {
6893
+ "epoch": 16.52,
6894
+ "learning_rate": 0.00014159557552064463,
6895
+ "loss": 1.1861,
6896
+ "step": 1057
6897
+ },
6898
+ {
6899
+ "epoch": 16.53,
6900
+ "learning_rate": 0.00014113020220953603,
6901
+ "loss": 1.2589,
6902
+ "step": 1058
6903
+ },
6904
+ {
6905
+ "epoch": 16.55,
6906
+ "learning_rate": 0.00014066529397003963,
6907
+ "loss": 1.1822,
6908
+ "step": 1059
6909
+ },
6910
+ {
6911
+ "epoch": 16.56,
6912
+ "learning_rate": 0.00014020085278815744,
6913
+ "loss": 1.2299,
6914
+ "step": 1060
6915
+ },
6916
+ {
6917
+ "epoch": 16.58,
6918
+ "learning_rate": 0.00013973688064789608,
6919
+ "loss": 1.2684,
6920
+ "step": 1061
6921
+ },
6922
+ {
6923
+ "epoch": 16.59,
6924
+ "learning_rate": 0.00013927337953125861,
6925
+ "loss": 1.2632,
6926
+ "step": 1062
6927
+ },
6928
+ {
6929
+ "epoch": 16.61,
6930
+ "learning_rate": 0.00013881035141823588,
6931
+ "loss": 1.2404,
6932
+ "step": 1063
6933
+ },
6934
+ {
6935
+ "epoch": 16.62,
6936
+ "learning_rate": 0.00013834779828679838,
6937
+ "loss": 1.1814,
6938
+ "step": 1064
6939
+ },
6940
+ {
6941
+ "epoch": 16.64,
6942
+ "learning_rate": 0.00013788572211288736,
6943
+ "loss": 1.2235,
6944
+ "step": 1065
6945
+ },
6946
+ {
6947
+ "epoch": 16.66,
6948
+ "learning_rate": 0.0001374241248704066,
6949
+ "loss": 1.2549,
6950
+ "step": 1066
6951
+ },
6952
+ {
6953
+ "epoch": 16.67,
6954
+ "learning_rate": 0.00013696300853121402,
6955
+ "loss": 1.2114,
6956
+ "step": 1067
6957
+ },
6958
+ {
6959
+ "epoch": 16.69,
6960
+ "learning_rate": 0.00013650237506511331,
6961
+ "loss": 1.2368,
6962
+ "step": 1068
6963
+ },
6964
+ {
6965
+ "epoch": 16.7,
6966
+ "learning_rate": 0.00013604222643984532,
6967
+ "loss": 1.254,
6968
+ "step": 1069
6969
+ },
6970
+ {
6971
+ "epoch": 16.72,
6972
+ "learning_rate": 0.00013558256462107966,
6973
+ "loss": 1.2721,
6974
+ "step": 1070
6975
+ },
6976
+ {
6977
+ "epoch": 16.73,
6978
+ "learning_rate": 0.00013512339157240654,
6979
+ "loss": 1.2246,
6980
+ "step": 1071
6981
+ },
6982
+ {
6983
+ "epoch": 16.75,
6984
+ "learning_rate": 0.00013466470925532808,
6985
+ "loss": 1.1829,
6986
+ "step": 1072
6987
+ },
6988
+ {
6989
+ "epoch": 16.76,
6990
+ "learning_rate": 0.00013420651962925035,
6991
+ "loss": 1.2187,
6992
+ "step": 1073
6993
+ },
6994
+ {
6995
+ "epoch": 16.78,
6996
+ "learning_rate": 0.00013374882465147454,
6997
+ "loss": 1.1972,
6998
+ "step": 1074
6999
+ },
7000
+ {
7001
+ "epoch": 16.8,
7002
+ "learning_rate": 0.00013329162627718873,
7003
+ "loss": 1.2536,
7004
+ "step": 1075
7005
+ },
7006
+ {
7007
+ "epoch": 16.8,
7008
+ "eval_gen_len": 810.896,
7009
+ "eval_loss": 1.5420339107513428,
7010
+ "eval_rouge1": 57.5194,
7011
+ "eval_rouge2": 25.2201,
7012
+ "eval_rougeL": 27.0883,
7013
+ "eval_rougeLsum": 54.5868,
7014
+ "eval_runtime": 880.8422,
7015
+ "eval_samples_per_second": 0.284,
7016
+ "eval_steps_per_second": 0.284,
7017
+ "step": 1075
7018
+ },
7019
+ {
7020
+ "epoch": 16.81,
7021
+ "learning_rate": 0.00013283492645945965,
7022
+ "loss": 1.2711,
7023
+ "step": 1076
7024
+ },
7025
+ {
7026
+ "epoch": 16.83,
7027
+ "learning_rate": 0.00013237872714922457,
7028
+ "loss": 1.1944,
7029
+ "step": 1077
7030
+ },
7031
+ {
7032
+ "epoch": 16.84,
7033
+ "learning_rate": 0.0001319230302952823,
7034
+ "loss": 1.216,
7035
+ "step": 1078
7036
+ },
7037
+ {
7038
+ "epoch": 16.86,
7039
+ "learning_rate": 0.0001314678378442854,
7040
+ "loss": 1.1859,
7041
+ "step": 1079
7042
+ },
7043
+ {
7044
+ "epoch": 16.87,
7045
+ "learning_rate": 0.0001310131517407316,
7046
+ "loss": 1.1937,
7047
+ "step": 1080
7048
+ },
7049
+ {
7050
+ "epoch": 16.89,
7051
+ "learning_rate": 0.00013055897392695598,
7052
+ "loss": 1.1958,
7053
+ "step": 1081
7054
+ },
7055
+ {
7056
+ "epoch": 16.91,
7057
+ "learning_rate": 0.0001301053063431219,
7058
+ "loss": 1.1696,
7059
+ "step": 1082
7060
+ },
7061
+ {
7062
+ "epoch": 16.92,
7063
+ "learning_rate": 0.00012965215092721328,
7064
+ "loss": 1.1705,
7065
+ "step": 1083
7066
+ },
7067
+ {
7068
+ "epoch": 16.94,
7069
+ "learning_rate": 0.00012919950961502602,
7070
+ "loss": 1.1804,
7071
+ "step": 1084
7072
+ },
7073
+ {
7074
+ "epoch": 16.95,
7075
+ "learning_rate": 0.0001287473843401601,
7076
+ "loss": 1.2113,
7077
+ "step": 1085
7078
+ },
7079
+ {
7080
+ "epoch": 16.97,
7081
+ "learning_rate": 0.00012829577703401095,
7082
+ "loss": 1.292,
7083
+ "step": 1086
7084
+ },
7085
+ {
7086
+ "epoch": 16.98,
7087
+ "learning_rate": 0.00012784468962576134,
7088
+ "loss": 1.1778,
7089
+ "step": 1087
7090
+ },
7091
+ {
7092
+ "epoch": 17.0,
7093
+ "learning_rate": 0.00012739412404237305,
7094
+ "loss": 1.2141,
7095
+ "step": 1088
7096
+ },
7097
+ {
7098
+ "epoch": 17.02,
7099
+ "learning_rate": 0.0001269440822085788,
7100
+ "loss": 1.3028,
7101
+ "step": 1089
7102
+ },
7103
+ {
7104
+ "epoch": 17.03,
7105
+ "learning_rate": 0.00012649456604687403,
7106
+ "loss": 1.2569,
7107
+ "step": 1090
7108
+ },
7109
+ {
7110
+ "epoch": 17.05,
7111
+ "learning_rate": 0.00012604557747750855,
7112
+ "loss": 1.2092,
7113
+ "step": 1091
7114
+ },
7115
+ {
7116
+ "epoch": 17.06,
7117
+ "learning_rate": 0.00012559711841847828,
7118
+ "loss": 1.1945,
7119
+ "step": 1092
7120
+ },
7121
+ {
7122
+ "epoch": 17.08,
7123
+ "learning_rate": 0.00012514919078551723,
7124
+ "loss": 1.2009,
7125
+ "step": 1093
7126
+ },
7127
+ {
7128
+ "epoch": 17.09,
7129
+ "learning_rate": 0.00012470179649208947,
7130
+ "loss": 1.1729,
7131
+ "step": 1094
7132
+ },
7133
+ {
7134
+ "epoch": 17.11,
7135
+ "learning_rate": 0.0001242549374493804,
7136
+ "loss": 1.2607,
7137
+ "step": 1095
7138
+ },
7139
+ {
7140
+ "epoch": 17.12,
7141
+ "learning_rate": 0.00012380861556628915,
7142
+ "loss": 1.2086,
7143
+ "step": 1096
7144
+ },
7145
+ {
7146
+ "epoch": 17.14,
7147
+ "learning_rate": 0.00012336283274942003,
7148
+ "loss": 1.1583,
7149
+ "step": 1097
7150
+ },
7151
+ {
7152
+ "epoch": 17.16,
7153
+ "learning_rate": 0.00012291759090307487,
7154
+ "loss": 1.1823,
7155
+ "step": 1098
7156
+ },
7157
+ {
7158
+ "epoch": 17.17,
7159
+ "learning_rate": 0.00012247289192924424,
7160
+ "loss": 1.1805,
7161
+ "step": 1099
7162
+ },
7163
+ {
7164
+ "epoch": 17.19,
7165
+ "learning_rate": 0.00012202873772759981,
7166
+ "loss": 1.2539,
7167
+ "step": 1100
7168
+ },
7169
+ {
7170
+ "epoch": 17.19,
7171
+ "eval_gen_len": 809.712,
7172
+ "eval_loss": 1.5523115396499634,
7173
+ "eval_rouge1": 58.3301,
7174
+ "eval_rouge2": 25.7175,
7175
+ "eval_rougeL": 27.2238,
7176
+ "eval_rougeLsum": 55.3734,
7177
+ "eval_runtime": 879.0327,
7178
+ "eval_samples_per_second": 0.284,
7179
+ "eval_steps_per_second": 0.284,
7180
+ "step": 1100
7181
+ },
7182
+ {
7183
+ "epoch": 17.2,
7184
+ "learning_rate": 0.00012158513019548612,
7185
+ "loss": 1.1831,
7186
+ "step": 1101
7187
+ },
7188
+ {
7189
+ "epoch": 17.22,
7190
+ "learning_rate": 0.00012114207122791221,
7191
+ "loss": 1.1519,
7192
+ "step": 1102
7193
+ },
7194
+ {
7195
+ "epoch": 17.23,
7196
+ "learning_rate": 0.00012069956271754417,
7197
+ "loss": 1.1788,
7198
+ "step": 1103
7199
+ },
7200
+ {
7201
+ "epoch": 17.25,
7202
+ "learning_rate": 0.00012025760655469628,
7203
+ "loss": 1.2795,
7204
+ "step": 1104
7205
+ },
7206
+ {
7207
+ "epoch": 17.27,
7208
+ "learning_rate": 0.00011981620462732343,
7209
+ "loss": 1.2211,
7210
+ "step": 1105
7211
+ },
7212
+ {
7213
+ "epoch": 17.28,
7214
+ "learning_rate": 0.00011937535882101281,
7215
+ "loss": 1.2403,
7216
+ "step": 1106
7217
+ },
7218
+ {
7219
+ "epoch": 17.3,
7220
+ "learning_rate": 0.00011893507101897622,
7221
+ "loss": 1.1747,
7222
+ "step": 1107
7223
+ },
7224
+ {
7225
+ "epoch": 17.31,
7226
+ "learning_rate": 0.00011849534310204153,
7227
+ "loss": 1.2143,
7228
+ "step": 1108
7229
+ },
7230
+ {
7231
+ "epoch": 17.33,
7232
+ "learning_rate": 0.00011805617694864493,
7233
+ "loss": 1.2278,
7234
+ "step": 1109
7235
+ },
7236
+ {
7237
+ "epoch": 17.34,
7238
+ "learning_rate": 0.00011761757443482285,
7239
+ "loss": 1.1928,
7240
+ "step": 1110
7241
+ },
7242
+ {
7243
+ "epoch": 17.36,
7244
+ "learning_rate": 0.00011717953743420412,
7245
+ "loss": 1.1998,
7246
+ "step": 1111
7247
+ },
7248
+ {
7249
+ "epoch": 17.37,
7250
+ "learning_rate": 0.00011674206781800162,
7251
+ "loss": 1.2648,
7252
+ "step": 1112
7253
+ },
7254
+ {
7255
+ "epoch": 17.39,
7256
+ "learning_rate": 0.00011630516745500453,
7257
+ "loss": 1.1509,
7258
+ "step": 1113
7259
+ },
7260
+ {
7261
+ "epoch": 17.41,
7262
+ "learning_rate": 0.00011586883821157015,
7263
+ "loss": 1.2491,
7264
+ "step": 1114
7265
+ },
7266
+ {
7267
+ "epoch": 17.42,
7268
+ "learning_rate": 0.00011543308195161642,
7269
+ "loss": 1.2086,
7270
+ "step": 1115
7271
+ },
7272
+ {
7273
+ "epoch": 17.44,
7274
+ "learning_rate": 0.00011499790053661327,
7275
+ "loss": 1.1833,
7276
+ "step": 1116
7277
+ },
7278
+ {
7279
+ "epoch": 17.45,
7280
+ "learning_rate": 0.00011456329582557512,
7281
+ "loss": 1.1709,
7282
+ "step": 1117
7283
+ },
7284
+ {
7285
+ "epoch": 17.47,
7286
+ "learning_rate": 0.00011412926967505269,
7287
+ "loss": 1.1348,
7288
+ "step": 1118
7289
+ },
7290
+ {
7291
+ "epoch": 17.48,
7292
+ "learning_rate": 0.00011369582393912548,
7293
+ "loss": 1.2343,
7294
+ "step": 1119
7295
+ },
7296
+ {
7297
+ "epoch": 17.5,
7298
+ "learning_rate": 0.00011326296046939332,
7299
+ "loss": 1.1591,
7300
+ "step": 1120
7301
+ },
7302
+ {
7303
+ "epoch": 17.52,
7304
+ "learning_rate": 0.0001128306811149688,
7305
+ "loss": 1.2393,
7306
+ "step": 1121
7307
+ },
7308
+ {
7309
+ "epoch": 17.53,
7310
+ "learning_rate": 0.00011239898772246915,
7311
+ "loss": 1.2146,
7312
+ "step": 1122
7313
+ },
7314
+ {
7315
+ "epoch": 17.55,
7316
+ "learning_rate": 0.00011196788213600875,
7317
+ "loss": 1.2021,
7318
+ "step": 1123
7319
+ },
7320
+ {
7321
+ "epoch": 17.56,
7322
+ "learning_rate": 0.00011153736619719076,
7323
+ "loss": 1.1951,
7324
+ "step": 1124
7325
+ },
7326
+ {
7327
+ "epoch": 17.58,
7328
+ "learning_rate": 0.00011110744174509952,
7329
+ "loss": 1.2294,
7330
+ "step": 1125
7331
+ },
7332
+ {
7333
+ "epoch": 17.58,
7334
+ "eval_gen_len": 793.548,
7335
+ "eval_loss": 1.5482228994369507,
7336
+ "eval_rouge1": 57.6922,
7337
+ "eval_rouge2": 25.454,
7338
+ "eval_rougeL": 27.1896,
7339
+ "eval_rougeLsum": 54.7084,
7340
+ "eval_runtime": 864.7323,
7341
+ "eval_samples_per_second": 0.289,
7342
+ "eval_steps_per_second": 0.289,
7343
+ "step": 1125
7344
+ },
7345
+ {
7346
+ "epoch": 17.59,
7347
+ "learning_rate": 0.00011067811061629257,
7348
+ "loss": 1.159,
7349
+ "step": 1126
7350
+ },
7351
+ {
7352
+ "epoch": 17.61,
7353
+ "learning_rate": 0.00011024937464479314,
7354
+ "loss": 1.1791,
7355
+ "step": 1127
7356
+ },
7357
+ {
7358
+ "epoch": 17.62,
7359
+ "learning_rate": 0.00010982123566208185,
7360
+ "loss": 1.1825,
7361
+ "step": 1128
7362
+ },
7363
+ {
7364
+ "epoch": 17.64,
7365
+ "learning_rate": 0.00010939369549708903,
7366
+ "loss": 1.217,
7367
+ "step": 1129
7368
+ },
7369
+ {
7370
+ "epoch": 17.66,
7371
+ "learning_rate": 0.00010896675597618725,
7372
+ "loss": 1.2057,
7373
+ "step": 1130
7374
+ },
7375
+ {
7376
+ "epoch": 17.67,
7377
+ "learning_rate": 0.00010854041892318296,
7378
+ "loss": 1.2306,
7379
+ "step": 1131
7380
+ },
7381
+ {
7382
+ "epoch": 17.69,
7383
+ "learning_rate": 0.00010811468615930911,
7384
+ "loss": 1.1588,
7385
+ "step": 1132
7386
+ },
7387
+ {
7388
+ "epoch": 17.7,
7389
+ "learning_rate": 0.00010768955950321713,
7390
+ "loss": 1.2247,
7391
+ "step": 1133
7392
+ },
7393
+ {
7394
+ "epoch": 17.72,
7395
+ "learning_rate": 0.00010726504077096952,
7396
+ "loss": 1.2917,
7397
+ "step": 1134
7398
+ },
7399
+ {
7400
+ "epoch": 17.73,
7401
+ "learning_rate": 0.0001068411317760316,
7402
+ "loss": 1.2074,
7403
+ "step": 1135
7404
+ },
7405
+ {
7406
+ "epoch": 17.75,
7407
+ "learning_rate": 0.0001064178343292641,
7408
+ "loss": 1.1683,
7409
+ "step": 1136
7410
+ },
7411
+ {
7412
+ "epoch": 17.76,
7413
+ "learning_rate": 0.00010599515023891521,
7414
+ "loss": 1.1775,
7415
+ "step": 1137
7416
+ },
7417
+ {
7418
+ "epoch": 17.78,
7419
+ "learning_rate": 0.00010557308131061325,
7420
+ "loss": 1.1825,
7421
+ "step": 1138
7422
+ },
7423
+ {
7424
+ "epoch": 17.8,
7425
+ "learning_rate": 0.00010515162934735842,
7426
+ "loss": 1.2372,
7427
+ "step": 1139
7428
+ },
7429
+ {
7430
+ "epoch": 17.81,
7431
+ "learning_rate": 0.00010473079614951545,
7432
+ "loss": 1.2204,
7433
+ "step": 1140
7434
+ },
7435
+ {
7436
+ "epoch": 17.83,
7437
+ "learning_rate": 0.00010431058351480574,
7438
+ "loss": 1.2157,
7439
+ "step": 1141
7440
+ },
7441
+ {
7442
+ "epoch": 17.84,
7443
+ "learning_rate": 0.00010389099323830001,
7444
+ "loss": 1.2588,
7445
+ "step": 1142
7446
+ },
7447
+ {
7448
+ "epoch": 17.86,
7449
+ "learning_rate": 0.00010347202711241011,
7450
+ "loss": 1.2763,
7451
+ "step": 1143
7452
+ },
7453
+ {
7454
+ "epoch": 17.87,
7455
+ "learning_rate": 0.00010305368692688174,
7456
+ "loss": 1.201,
7457
+ "step": 1144
7458
+ },
7459
+ {
7460
+ "epoch": 17.89,
7461
+ "learning_rate": 0.00010263597446878661,
7462
+ "loss": 1.1619,
7463
+ "step": 1145
7464
+ },
7465
+ {
7466
+ "epoch": 17.91,
7467
+ "learning_rate": 0.00010221889152251512,
7468
+ "loss": 1.1512,
7469
+ "step": 1146
7470
+ },
7471
+ {
7472
+ "epoch": 17.92,
7473
+ "learning_rate": 0.00010180243986976833,
7474
+ "loss": 1.2321,
7475
+ "step": 1147
7476
+ },
7477
+ {
7478
+ "epoch": 17.94,
7479
+ "learning_rate": 0.00010138662128955054,
7480
+ "loss": 1.2074,
7481
+ "step": 1148
7482
+ },
7483
+ {
7484
+ "epoch": 17.95,
7485
+ "learning_rate": 0.00010097143755816163,
7486
+ "loss": 1.1581,
7487
+ "step": 1149
7488
+ },
7489
+ {
7490
+ "epoch": 17.97,
7491
+ "learning_rate": 0.00010055689044918978,
7492
+ "loss": 1.1568,
7493
+ "step": 1150
7494
+ },
7495
+ {
7496
+ "epoch": 17.97,
7497
+ "eval_gen_len": 788.808,
7498
+ "eval_loss": 1.5476616621017456,
7499
+ "eval_rouge1": 57.3929,
7500
+ "eval_rouge2": 25.4513,
7501
+ "eval_rougeL": 27.1555,
7502
+ "eval_rougeLsum": 54.5364,
7503
+ "eval_runtime": 859.8638,
7504
+ "eval_samples_per_second": 0.291,
7505
+ "eval_steps_per_second": 0.291,
7506
+ "step": 1150
7507
+ },
7508
+ {
7509
+ "epoch": 17.98,
7510
+ "learning_rate": 0.00010014298173350333,
7511
+ "loss": 1.2697,
7512
+ "step": 1151
7513
+ },
7514
+ {
7515
+ "epoch": 18.0,
7516
+ "learning_rate": 9.972971317924374e-05,
7517
+ "loss": 1.1648,
7518
+ "step": 1152
7519
+ },
7520
+ {
7521
+ "epoch": 18.02,
7522
+ "learning_rate": 9.931708655181765e-05,
7523
+ "loss": 1.3094,
7524
+ "step": 1153
7525
+ },
7526
+ {
7527
+ "epoch": 18.03,
7528
+ "learning_rate": 9.890510361388955e-05,
7529
+ "loss": 1.2276,
7530
+ "step": 1154
7531
+ },
7532
+ {
7533
+ "epoch": 18.05,
7534
+ "learning_rate": 9.849376612537442e-05,
7535
+ "loss": 1.165,
7536
+ "step": 1155
7537
+ },
7538
+ {
7539
+ "epoch": 18.06,
7540
+ "learning_rate": 9.808307584342971e-05,
7541
+ "loss": 1.1136,
7542
+ "step": 1156
7543
+ },
7544
+ {
7545
+ "epoch": 18.08,
7546
+ "learning_rate": 9.767303452244824e-05,
7547
+ "loss": 1.1616,
7548
+ "step": 1157
7549
+ },
7550
+ {
7551
+ "epoch": 18.09,
7552
+ "learning_rate": 9.726364391405055e-05,
7553
+ "loss": 1.1733,
7554
+ "step": 1158
7555
+ },
7556
+ {
7557
+ "epoch": 18.11,
7558
+ "learning_rate": 9.685490576707761e-05,
7559
+ "loss": 1.1681,
7560
+ "step": 1159
7561
+ },
7562
+ {
7563
+ "epoch": 18.12,
7564
+ "learning_rate": 9.644682182758304e-05,
7565
+ "loss": 1.2383,
7566
+ "step": 1160
7567
+ },
7568
+ {
7569
+ "epoch": 18.14,
7570
+ "learning_rate": 9.603939383882582e-05,
7571
+ "loss": 1.1642,
7572
+ "step": 1161
7573
+ },
7574
+ {
7575
+ "epoch": 18.16,
7576
+ "learning_rate": 9.563262354126278e-05,
7577
+ "loss": 1.1681,
7578
+ "step": 1162
7579
+ },
7580
+ {
7581
+ "epoch": 18.17,
7582
+ "learning_rate": 9.522651267254148e-05,
7583
+ "loss": 1.243,
7584
+ "step": 1163
7585
+ },
7586
+ {
7587
+ "epoch": 18.19,
7588
+ "learning_rate": 9.482106296749222e-05,
7589
+ "loss": 1.242,
7590
+ "step": 1164
7591
+ },
7592
+ {
7593
+ "epoch": 18.2,
7594
+ "learning_rate": 9.441627615812107e-05,
7595
+ "loss": 1.1943,
7596
+ "step": 1165
7597
+ },
7598
+ {
7599
+ "epoch": 18.22,
7600
+ "learning_rate": 9.401215397360227e-05,
7601
+ "loss": 1.2083,
7602
+ "step": 1166
7603
+ },
7604
+ {
7605
+ "epoch": 18.23,
7606
+ "learning_rate": 9.360869814027092e-05,
7607
+ "loss": 1.1749,
7608
+ "step": 1167
7609
+ },
7610
+ {
7611
+ "epoch": 18.25,
7612
+ "learning_rate": 9.320591038161574e-05,
7613
+ "loss": 1.203,
7614
+ "step": 1168
7615
+ },
7616
+ {
7617
+ "epoch": 18.27,
7618
+ "learning_rate": 9.280379241827137e-05,
7619
+ "loss": 1.1599,
7620
+ "step": 1169
7621
+ },
7622
+ {
7623
+ "epoch": 18.28,
7624
+ "learning_rate": 9.240234596801125e-05,
7625
+ "loss": 1.1176,
7626
+ "step": 1170
7627
+ },
7628
+ {
7629
+ "epoch": 18.3,
7630
+ "learning_rate": 9.20015727457402e-05,
7631
+ "loss": 1.2722,
7632
+ "step": 1171
7633
+ },
7634
+ {
7635
+ "epoch": 18.31,
7636
+ "learning_rate": 9.160147446348737e-05,
7637
+ "loss": 1.2143,
7638
+ "step": 1172
7639
+ },
7640
+ {
7641
+ "epoch": 18.33,
7642
+ "learning_rate": 9.120205283039842e-05,
7643
+ "loss": 1.2345,
7644
+ "step": 1173
7645
+ },
7646
+ {
7647
+ "epoch": 18.34,
7648
+ "learning_rate": 9.080330955272859e-05,
7649
+ "loss": 1.1591,
7650
+ "step": 1174
7651
+ },
7652
+ {
7653
+ "epoch": 18.36,
7654
+ "learning_rate": 9.040524633383523e-05,
7655
+ "loss": 1.2142,
7656
+ "step": 1175
7657
+ },
7658
+ {
7659
+ "epoch": 18.36,
7660
+ "eval_gen_len": 814.364,
7661
+ "eval_loss": 1.5497373342514038,
7662
+ "eval_rouge1": 57.1257,
7663
+ "eval_rouge2": 25.1404,
7664
+ "eval_rougeL": 26.7918,
7665
+ "eval_rougeLsum": 54.2231,
7666
+ "eval_runtime": 887.3864,
7667
+ "eval_samples_per_second": 0.282,
7668
+ "eval_steps_per_second": 0.282,
7669
+ "step": 1175
7670
+ },
7671
+ {
7672
+ "epoch": 18.37,
7673
+ "learning_rate": 9.000786487417084e-05,
7674
+ "loss": 1.1998,
7675
+ "step": 1176
7676
+ },
7677
+ {
7678
+ "epoch": 18.39,
7679
+ "learning_rate": 8.961116687127538e-05,
7680
+ "loss": 1.1858,
7681
+ "step": 1177
7682
+ },
7683
+ {
7684
+ "epoch": 18.41,
7685
+ "learning_rate": 8.921515401976918e-05,
7686
+ "loss": 1.1863,
7687
+ "step": 1178
7688
+ },
7689
+ {
7690
+ "epoch": 18.42,
7691
+ "learning_rate": 8.881982801134574e-05,
7692
+ "loss": 1.207,
7693
+ "step": 1179
7694
+ },
7695
+ {
7696
+ "epoch": 18.44,
7697
+ "learning_rate": 8.842519053476475e-05,
7698
+ "loss": 1.241,
7699
+ "step": 1180
7700
+ },
7701
+ {
7702
+ "epoch": 18.45,
7703
+ "learning_rate": 8.80312432758443e-05,
7704
+ "loss": 1.1988,
7705
+ "step": 1181
7706
+ },
7707
+ {
7708
+ "epoch": 18.47,
7709
+ "learning_rate": 8.763798791745412e-05,
7710
+ "loss": 1.227,
7711
+ "step": 1182
7712
+ },
7713
+ {
7714
+ "epoch": 18.48,
7715
+ "learning_rate": 8.724542613950825e-05,
7716
+ "loss": 1.2041,
7717
+ "step": 1183
7718
+ },
7719
+ {
7720
+ "epoch": 18.5,
7721
+ "learning_rate": 8.685355961895783e-05,
7722
+ "loss": 1.17,
7723
+ "step": 1184
7724
+ },
7725
+ {
7726
+ "epoch": 18.52,
7727
+ "learning_rate": 8.646239002978423e-05,
7728
+ "loss": 1.1184,
7729
+ "step": 1185
7730
+ },
7731
+ {
7732
+ "epoch": 18.53,
7733
+ "learning_rate": 8.607191904299142e-05,
7734
+ "loss": 1.2092,
7735
+ "step": 1186
7736
+ },
7737
+ {
7738
+ "epoch": 18.55,
7739
+ "learning_rate": 8.56821483265991e-05,
7740
+ "loss": 1.1561,
7741
+ "step": 1187
7742
+ },
7743
+ {
7744
+ "epoch": 18.56,
7745
+ "learning_rate": 8.52930795456355e-05,
7746
+ "loss": 1.196,
7747
+ "step": 1188
7748
+ },
7749
+ {
7750
+ "epoch": 18.58,
7751
+ "learning_rate": 8.490471436213056e-05,
7752
+ "loss": 1.2142,
7753
+ "step": 1189
7754
+ },
7755
+ {
7756
+ "epoch": 18.59,
7757
+ "learning_rate": 8.451705443510838e-05,
7758
+ "loss": 1.2558,
7759
+ "step": 1190
7760
+ },
7761
+ {
7762
+ "epoch": 18.61,
7763
+ "learning_rate": 8.41301014205803e-05,
7764
+ "loss": 1.1887,
7765
+ "step": 1191
7766
+ },
7767
+ {
7768
+ "epoch": 18.62,
7769
+ "learning_rate": 8.374385697153791e-05,
7770
+ "loss": 1.2226,
7771
+ "step": 1192
7772
+ },
7773
+ {
7774
+ "epoch": 18.64,
7775
+ "learning_rate": 8.335832273794608e-05,
7776
+ "loss": 1.2365,
7777
+ "step": 1193
7778
+ },
7779
+ {
7780
+ "epoch": 18.66,
7781
+ "learning_rate": 8.297350036673556e-05,
7782
+ "loss": 1.1281,
7783
+ "step": 1194
7784
+ },
7785
+ {
7786
+ "epoch": 18.67,
7787
+ "learning_rate": 8.258939150179628e-05,
7788
+ "loss": 1.2167,
7789
+ "step": 1195
7790
+ },
7791
+ {
7792
+ "epoch": 18.69,
7793
+ "learning_rate": 8.220599778397017e-05,
7794
+ "loss": 1.1748,
7795
+ "step": 1196
7796
+ },
7797
+ {
7798
+ "epoch": 18.7,
7799
+ "learning_rate": 8.182332085104408e-05,
7800
+ "loss": 1.1774,
7801
+ "step": 1197
7802
+ },
7803
+ {
7804
+ "epoch": 18.72,
7805
+ "learning_rate": 8.144136233774315e-05,
7806
+ "loss": 1.2056,
7807
+ "step": 1198
7808
+ },
7809
+ {
7810
+ "epoch": 18.73,
7811
+ "learning_rate": 8.106012387572335e-05,
7812
+ "loss": 1.2122,
7813
+ "step": 1199
7814
+ },
7815
+ {
7816
+ "epoch": 18.75,
7817
+ "learning_rate": 8.067960709356478e-05,
7818
+ "loss": 1.2302,
7819
+ "step": 1200
7820
+ },
7821
+ {
7822
+ "epoch": 18.75,
7823
+ "eval_gen_len": 800.512,
7824
+ "eval_loss": 1.5504323244094849,
7825
+ "eval_rouge1": 57.5314,
7826
+ "eval_rouge2": 25.3115,
7827
+ "eval_rougeL": 27.066,
7828
+ "eval_rougeLsum": 54.5668,
7829
+ "eval_runtime": 872.4747,
7830
+ "eval_samples_per_second": 0.287,
7831
+ "eval_steps_per_second": 0.287,
7832
+ "step": 1200
7833
  }
7834
  ],
7835
+ "max_steps": 1600,
7836
  "num_train_epochs": 25,
7837
+ "total_flos": 1.684506994016256e+18,
7838
  "trial_name": null,
7839
  "trial_params": null
7840
  }
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f9610a0993ef6291d92f906d05ec24bc6c9443d5ef40b80dbeb9fa52f77e6bd5
3
- size 3643
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:534557a54ea44920b6ae5900bae5a3085b1082d4f98e6868703c07aee1f352a0
3
+ size 3579