mehrshadk commited on
Commit
010513e
β€’
1 Parent(s): 736f374

Training in progress, step 90000

Browse files
{checkpoint-50000 β†’ checkpoint-90000}/config.json RENAMED
File without changes
{checkpoint-50000 β†’ checkpoint-90000}/merges.txt RENAMED
File without changes
{checkpoint-50000 β†’ checkpoint-90000}/optimizer.pt RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:908821cef5352b00b28f8e368989e1aa6391a35b97cceb9eb8fdd907dfe5ea88
3
- size 997697925
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:64c719eaa9ca2379efb4e3c24f9f901cf14804ea6b0b4a23391b66e710fa83c5
3
+ size 997698309
{checkpoint-50000 β†’ checkpoint-90000}/pytorch_model.bin RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4d876b998eae889b4c6dc08a2f721f75ba2d327e2b21e2ddeb1a43e6104ca15e
3
  size 498859189
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd99962af5a9ec8b4b730fc7f5413133bd79d42b20342bdde6c3ca0390cef4bf
3
  size 498859189
{checkpoint-50000 β†’ checkpoint-90000}/rng_state.pth RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8ffd02bebc39af724b8fb6befe1654a6c1b91239ea53cd4d1473f8fdd2768697
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:34014dc39a1054881640b502d61c5b936e42f7e1bf15d187f800e62396151699
3
  size 14575
{checkpoint-50000 β†’ checkpoint-90000}/scheduler.pt RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:31486c3647b16f95384c3db62df4509eaa32b9cf885d3587ca94a012da63335d
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d54e2ef33fb59c5cf92110395c9ca996bb6a1c9ab801d4edb264466f1a274cbf
3
  size 627
{checkpoint-50000 β†’ checkpoint-90000}/special_tokens_map.json RENAMED
File without changes
{checkpoint-50000 β†’ checkpoint-90000}/tokenizer.json RENAMED
File without changes
{checkpoint-50000 β†’ checkpoint-90000}/tokenizer_config.json RENAMED
File without changes
{checkpoint-50000 β†’ checkpoint-90000}/trainer_state.json RENAMED
@@ -1,8 +1,8 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 7.8357624196834355,
5
- "global_step": 50000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -606,11 +606,491 @@
606
  "learning_rate": 1.6666666666666667e-05,
607
  "loss": 1.3696,
608
  "step": 50000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
609
  }
610
  ],
611
  "max_steps": 100000,
612
  "num_train_epochs": 16,
613
- "total_flos": 6.581521403759808e+16,
614
  "trial_name": null,
615
  "trial_params": null
616
  }
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 14.104372355430183,
5
+ "global_step": 90000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
606
  "learning_rate": 1.6666666666666667e-05,
607
  "loss": 1.3696,
608
  "step": 50000
609
+ },
610
+ {
611
+ "epoch": 7.91,
612
+ "learning_rate": 1.65e-05,
613
+ "loss": 1.376,
614
+ "step": 50500
615
+ },
616
+ {
617
+ "epoch": 7.99,
618
+ "learning_rate": 1.633333333333333e-05,
619
+ "loss": 1.3733,
620
+ "step": 51000
621
+ },
622
+ {
623
+ "epoch": 8.07,
624
+ "learning_rate": 1.6166666666666665e-05,
625
+ "loss": 1.3717,
626
+ "step": 51500
627
+ },
628
+ {
629
+ "epoch": 8.15,
630
+ "learning_rate": 1.6e-05,
631
+ "loss": 1.3463,
632
+ "step": 52000
633
+ },
634
+ {
635
+ "epoch": 8.23,
636
+ "learning_rate": 1.5833333333333333e-05,
637
+ "loss": 1.3553,
638
+ "step": 52500
639
+ },
640
+ {
641
+ "epoch": 8.31,
642
+ "learning_rate": 1.5666666666666667e-05,
643
+ "loss": 1.3568,
644
+ "step": 53000
645
+ },
646
+ {
647
+ "epoch": 8.38,
648
+ "learning_rate": 1.55e-05,
649
+ "loss": 1.3556,
650
+ "step": 53500
651
+ },
652
+ {
653
+ "epoch": 8.46,
654
+ "learning_rate": 1.533333333333333e-05,
655
+ "loss": 1.3572,
656
+ "step": 54000
657
+ },
658
+ {
659
+ "epoch": 8.54,
660
+ "learning_rate": 1.5166666666666667e-05,
661
+ "loss": 1.3572,
662
+ "step": 54500
663
+ },
664
+ {
665
+ "epoch": 8.62,
666
+ "learning_rate": 1.5e-05,
667
+ "loss": 1.3641,
668
+ "step": 55000
669
+ },
670
+ {
671
+ "epoch": 8.7,
672
+ "learning_rate": 1.4833333333333334e-05,
673
+ "loss": 1.3648,
674
+ "step": 55500
675
+ },
676
+ {
677
+ "epoch": 8.78,
678
+ "learning_rate": 1.4666666666666666e-05,
679
+ "loss": 1.3579,
680
+ "step": 56000
681
+ },
682
+ {
683
+ "epoch": 8.85,
684
+ "learning_rate": 1.45e-05,
685
+ "loss": 1.3595,
686
+ "step": 56500
687
+ },
688
+ {
689
+ "epoch": 8.93,
690
+ "learning_rate": 1.4333333333333334e-05,
691
+ "loss": 1.3608,
692
+ "step": 57000
693
+ },
694
+ {
695
+ "epoch": 9.01,
696
+ "learning_rate": 1.4166666666666666e-05,
697
+ "loss": 1.3583,
698
+ "step": 57500
699
+ },
700
+ {
701
+ "epoch": 9.09,
702
+ "learning_rate": 1.4e-05,
703
+ "loss": 1.356,
704
+ "step": 58000
705
+ },
706
+ {
707
+ "epoch": 9.17,
708
+ "learning_rate": 1.3833333333333335e-05,
709
+ "loss": 1.34,
710
+ "step": 58500
711
+ },
712
+ {
713
+ "epoch": 9.25,
714
+ "learning_rate": 1.3666666666666667e-05,
715
+ "loss": 1.342,
716
+ "step": 59000
717
+ },
718
+ {
719
+ "epoch": 9.32,
720
+ "learning_rate": 1.3500000000000001e-05,
721
+ "loss": 1.3387,
722
+ "step": 59500
723
+ },
724
+ {
725
+ "epoch": 9.4,
726
+ "learning_rate": 1.3333333333333333e-05,
727
+ "loss": 1.3407,
728
+ "step": 60000
729
+ },
730
+ {
731
+ "epoch": 9.48,
732
+ "learning_rate": 1.3166666666666667e-05,
733
+ "loss": 1.3546,
734
+ "step": 60500
735
+ },
736
+ {
737
+ "epoch": 9.56,
738
+ "learning_rate": 1.3000000000000001e-05,
739
+ "loss": 1.3491,
740
+ "step": 61000
741
+ },
742
+ {
743
+ "epoch": 9.64,
744
+ "learning_rate": 1.2833333333333333e-05,
745
+ "loss": 1.3289,
746
+ "step": 61500
747
+ },
748
+ {
749
+ "epoch": 9.72,
750
+ "learning_rate": 1.2666666666666667e-05,
751
+ "loss": 1.3337,
752
+ "step": 62000
753
+ },
754
+ {
755
+ "epoch": 9.79,
756
+ "learning_rate": 1.25e-05,
757
+ "loss": 1.3365,
758
+ "step": 62500
759
+ },
760
+ {
761
+ "epoch": 9.87,
762
+ "learning_rate": 1.2333333333333333e-05,
763
+ "loss": 1.3341,
764
+ "step": 63000
765
+ },
766
+ {
767
+ "epoch": 9.95,
768
+ "learning_rate": 1.2166666666666667e-05,
769
+ "loss": 1.3331,
770
+ "step": 63500
771
+ },
772
+ {
773
+ "epoch": 10.03,
774
+ "learning_rate": 1.2e-05,
775
+ "loss": 1.3269,
776
+ "step": 64000
777
+ },
778
+ {
779
+ "epoch": 10.11,
780
+ "learning_rate": 1.1833333333333332e-05,
781
+ "loss": 1.3187,
782
+ "step": 64500
783
+ },
784
+ {
785
+ "epoch": 10.19,
786
+ "learning_rate": 1.1666666666666668e-05,
787
+ "loss": 1.3097,
788
+ "step": 65000
789
+ },
790
+ {
791
+ "epoch": 10.26,
792
+ "learning_rate": 1.1500000000000002e-05,
793
+ "loss": 1.3254,
794
+ "step": 65500
795
+ },
796
+ {
797
+ "epoch": 10.34,
798
+ "learning_rate": 1.1333333333333334e-05,
799
+ "loss": 1.3278,
800
+ "step": 66000
801
+ },
802
+ {
803
+ "epoch": 10.42,
804
+ "learning_rate": 1.1166666666666668e-05,
805
+ "loss": 1.3211,
806
+ "step": 66500
807
+ },
808
+ {
809
+ "epoch": 10.5,
810
+ "learning_rate": 1.1e-05,
811
+ "loss": 1.3023,
812
+ "step": 67000
813
+ },
814
+ {
815
+ "epoch": 10.58,
816
+ "learning_rate": 1.0833333333333334e-05,
817
+ "loss": 1.3267,
818
+ "step": 67500
819
+ },
820
+ {
821
+ "epoch": 10.66,
822
+ "learning_rate": 1.0666666666666667e-05,
823
+ "loss": 1.3097,
824
+ "step": 68000
825
+ },
826
+ {
827
+ "epoch": 10.73,
828
+ "learning_rate": 1.05e-05,
829
+ "loss": 1.3281,
830
+ "step": 68500
831
+ },
832
+ {
833
+ "epoch": 10.81,
834
+ "learning_rate": 1.0333333333333333e-05,
835
+ "loss": 1.2921,
836
+ "step": 69000
837
+ },
838
+ {
839
+ "epoch": 10.89,
840
+ "learning_rate": 1.0166666666666667e-05,
841
+ "loss": 1.3229,
842
+ "step": 69500
843
+ },
844
+ {
845
+ "epoch": 10.97,
846
+ "learning_rate": 9.999999999999999e-06,
847
+ "loss": 1.3256,
848
+ "step": 70000
849
+ },
850
+ {
851
+ "epoch": 11.05,
852
+ "learning_rate": 9.833333333333333e-06,
853
+ "loss": 1.3062,
854
+ "step": 70500
855
+ },
856
+ {
857
+ "epoch": 11.13,
858
+ "learning_rate": 9.666666666666667e-06,
859
+ "loss": 1.3046,
860
+ "step": 71000
861
+ },
862
+ {
863
+ "epoch": 11.21,
864
+ "learning_rate": 9.5e-06,
865
+ "loss": 1.3141,
866
+ "step": 71500
867
+ },
868
+ {
869
+ "epoch": 11.28,
870
+ "learning_rate": 9.333333333333334e-06,
871
+ "loss": 1.3074,
872
+ "step": 72000
873
+ },
874
+ {
875
+ "epoch": 11.36,
876
+ "learning_rate": 9.166666666666668e-06,
877
+ "loss": 1.3035,
878
+ "step": 72500
879
+ },
880
+ {
881
+ "epoch": 11.44,
882
+ "learning_rate": 9e-06,
883
+ "loss": 1.3046,
884
+ "step": 73000
885
+ },
886
+ {
887
+ "epoch": 11.52,
888
+ "learning_rate": 8.833333333333334e-06,
889
+ "loss": 1.3022,
890
+ "step": 73500
891
+ },
892
+ {
893
+ "epoch": 11.6,
894
+ "learning_rate": 8.666666666666666e-06,
895
+ "loss": 1.2966,
896
+ "step": 74000
897
+ },
898
+ {
899
+ "epoch": 11.68,
900
+ "learning_rate": 8.5e-06,
901
+ "loss": 1.3036,
902
+ "step": 74500
903
+ },
904
+ {
905
+ "epoch": 11.75,
906
+ "learning_rate": 8.333333333333334e-06,
907
+ "loss": 1.3002,
908
+ "step": 75000
909
+ },
910
+ {
911
+ "epoch": 11.83,
912
+ "learning_rate": 8.166666666666666e-06,
913
+ "loss": 1.2929,
914
+ "step": 75500
915
+ },
916
+ {
917
+ "epoch": 11.91,
918
+ "learning_rate": 8e-06,
919
+ "loss": 1.3014,
920
+ "step": 76000
921
+ },
922
+ {
923
+ "epoch": 11.99,
924
+ "learning_rate": 7.833333333333333e-06,
925
+ "loss": 1.2936,
926
+ "step": 76500
927
+ },
928
+ {
929
+ "epoch": 12.07,
930
+ "learning_rate": 7.666666666666666e-06,
931
+ "loss": 1.2997,
932
+ "step": 77000
933
+ },
934
+ {
935
+ "epoch": 12.15,
936
+ "learning_rate": 7.5e-06,
937
+ "loss": 1.2926,
938
+ "step": 77500
939
+ },
940
+ {
941
+ "epoch": 12.22,
942
+ "learning_rate": 7.333333333333333e-06,
943
+ "loss": 1.2908,
944
+ "step": 78000
945
+ },
946
+ {
947
+ "epoch": 12.3,
948
+ "learning_rate": 7.166666666666667e-06,
949
+ "loss": 1.2759,
950
+ "step": 78500
951
+ },
952
+ {
953
+ "epoch": 12.38,
954
+ "learning_rate": 7e-06,
955
+ "loss": 1.2848,
956
+ "step": 79000
957
+ },
958
+ {
959
+ "epoch": 12.46,
960
+ "learning_rate": 6.833333333333334e-06,
961
+ "loss": 1.2909,
962
+ "step": 79500
963
+ },
964
+ {
965
+ "epoch": 12.54,
966
+ "learning_rate": 6.666666666666667e-06,
967
+ "loss": 1.2815,
968
+ "step": 80000
969
+ },
970
+ {
971
+ "epoch": 12.62,
972
+ "learning_rate": 6.5000000000000004e-06,
973
+ "loss": 1.289,
974
+ "step": 80500
975
+ },
976
+ {
977
+ "epoch": 12.69,
978
+ "learning_rate": 6.333333333333333e-06,
979
+ "loss": 1.2931,
980
+ "step": 81000
981
+ },
982
+ {
983
+ "epoch": 12.77,
984
+ "learning_rate": 6.166666666666666e-06,
985
+ "loss": 1.2921,
986
+ "step": 81500
987
+ },
988
+ {
989
+ "epoch": 12.85,
990
+ "learning_rate": 6e-06,
991
+ "loss": 1.2915,
992
+ "step": 82000
993
+ },
994
+ {
995
+ "epoch": 12.93,
996
+ "learning_rate": 5.833333333333334e-06,
997
+ "loss": 1.2972,
998
+ "step": 82500
999
+ },
1000
+ {
1001
+ "epoch": 13.01,
1002
+ "learning_rate": 5.666666666666667e-06,
1003
+ "loss": 1.2701,
1004
+ "step": 83000
1005
+ },
1006
+ {
1007
+ "epoch": 13.09,
1008
+ "learning_rate": 5.5e-06,
1009
+ "loss": 1.27,
1010
+ "step": 83500
1011
+ },
1012
+ {
1013
+ "epoch": 13.16,
1014
+ "learning_rate": 5.333333333333334e-06,
1015
+ "loss": 1.269,
1016
+ "step": 84000
1017
+ },
1018
+ {
1019
+ "epoch": 13.24,
1020
+ "learning_rate": 5.166666666666667e-06,
1021
+ "loss": 1.2811,
1022
+ "step": 84500
1023
+ },
1024
+ {
1025
+ "epoch": 13.32,
1026
+ "learning_rate": 4.9999999999999996e-06,
1027
+ "loss": 1.2761,
1028
+ "step": 85000
1029
+ },
1030
+ {
1031
+ "epoch": 13.4,
1032
+ "learning_rate": 4.833333333333333e-06,
1033
+ "loss": 1.2985,
1034
+ "step": 85500
1035
+ },
1036
+ {
1037
+ "epoch": 13.48,
1038
+ "learning_rate": 4.666666666666667e-06,
1039
+ "loss": 1.2904,
1040
+ "step": 86000
1041
+ },
1042
+ {
1043
+ "epoch": 13.56,
1044
+ "learning_rate": 4.5e-06,
1045
+ "loss": 1.2771,
1046
+ "step": 86500
1047
+ },
1048
+ {
1049
+ "epoch": 13.63,
1050
+ "learning_rate": 4.333333333333333e-06,
1051
+ "loss": 1.2753,
1052
+ "step": 87000
1053
+ },
1054
+ {
1055
+ "epoch": 13.71,
1056
+ "learning_rate": 4.166666666666667e-06,
1057
+ "loss": 1.2745,
1058
+ "step": 87500
1059
+ },
1060
+ {
1061
+ "epoch": 13.79,
1062
+ "learning_rate": 4e-06,
1063
+ "loss": 1.2733,
1064
+ "step": 88000
1065
+ },
1066
+ {
1067
+ "epoch": 13.87,
1068
+ "learning_rate": 3.833333333333333e-06,
1069
+ "loss": 1.2638,
1070
+ "step": 88500
1071
+ },
1072
+ {
1073
+ "epoch": 13.95,
1074
+ "learning_rate": 3.6666666666666666e-06,
1075
+ "loss": 1.2754,
1076
+ "step": 89000
1077
+ },
1078
+ {
1079
+ "epoch": 14.03,
1080
+ "learning_rate": 3.5e-06,
1081
+ "loss": 1.2772,
1082
+ "step": 89500
1083
+ },
1084
+ {
1085
+ "epoch": 14.1,
1086
+ "learning_rate": 3.3333333333333333e-06,
1087
+ "loss": 1.2713,
1088
+ "step": 90000
1089
  }
1090
  ],
1091
  "max_steps": 100000,
1092
  "num_train_epochs": 16,
1093
+ "total_flos": 1.1846715491039616e+17,
1094
  "trial_name": null,
1095
  "trial_params": null
1096
  }
{checkpoint-50000 β†’ checkpoint-90000}/training_args.bin RENAMED
File without changes
{checkpoint-50000 β†’ checkpoint-90000}/vocab.json RENAMED
File without changes
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a7c98330e481b95da880b339027287e76827798e4940e0fb3d1e34e75da5bcd0
3
  size 498859189
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd99962af5a9ec8b4b730fc7f5413133bd79d42b20342bdde6c3ca0390cef4bf
3
  size 498859189
runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c73b5baa310c4497da15c105899ddcc813074071771328a8c1bf0fd36dc782e3
3
- size 29587
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:42cdb80164c8b7d7c349f89cc2959a7aca1b96ad4dce7fcbd9f09a5b7a7f7a68
3
+ size 32787