mehrshadk commited on
Commit
92d624c
β€’
1 Parent(s): 010513e

Training in progress, step 100000

Browse files
{checkpoint-60000 β†’ checkpoint-100000}/config.json RENAMED
File without changes
{checkpoint-60000 β†’ checkpoint-100000}/merges.txt RENAMED
File without changes
{checkpoint-60000 β†’ checkpoint-100000}/optimizer.pt RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bfdff9ef53311641d4b835f27dacbd9f68fa7fddde3435adb8101429cef8e2ca
3
- size 997697925
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:71a3d2021e0759e7241c625202af977ee75fea6c2777685a650cf5e17d7ff3e3
3
+ size 997698309
{checkpoint-60000 β†’ checkpoint-100000}/pytorch_model.bin RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1235fb7aba2a90081421eae43c9e96ceb69b33c08cec08e07d0693844d0a2020
3
  size 498859189
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d9da0e94e7a3aa086040aa47e1306586969404192b842b82e9b9248d87e70932
3
  size 498859189
{checkpoint-60000 β†’ checkpoint-100000}/rng_state.pth RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a113755aee985df5f89afcc35c94576ec9471ed55e9f5d4595ce2778b93cfd24
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f53a33fcead657271499fdccd34222cd292a2bd3ea33fb2eaa71c88ece9080a5
3
  size 14575
{checkpoint-60000 β†’ checkpoint-100000}/scheduler.pt RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e574cdc37828a4470fde5f669e3e53cfa29746b7ec8e06361f83c1674e22cfe4
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ae0f46fa4d1f708fa969d5b604b2b0bf0d2a24ddbdbe8f1e52169406922f5935
3
  size 627
{checkpoint-60000 β†’ checkpoint-100000}/special_tokens_map.json RENAMED
File without changes
{checkpoint-60000 β†’ checkpoint-100000}/tokenizer.json RENAMED
File without changes
{checkpoint-60000 β†’ checkpoint-100000}/tokenizer_config.json RENAMED
File without changes
{checkpoint-60000 β†’ checkpoint-100000}/trainer_state.json RENAMED
@@ -1,8 +1,8 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 9.402914903620122,
5
- "global_step": 60000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -726,11 +726,491 @@
726
  "learning_rate": 1.3333333333333333e-05,
727
  "loss": 1.3407,
728
  "step": 60000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
729
  }
730
  ],
731
  "max_steps": 100000,
732
  "num_train_epochs": 16,
733
- "total_flos": 7.897815812056896e+16,
734
  "trial_name": null,
735
  "trial_params": null
736
  }
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 15.671524839366871,
5
+ "global_step": 100000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
726
  "learning_rate": 1.3333333333333333e-05,
727
  "loss": 1.3407,
728
  "step": 60000
729
+ },
730
+ {
731
+ "epoch": 9.48,
732
+ "learning_rate": 1.3166666666666667e-05,
733
+ "loss": 1.3546,
734
+ "step": 60500
735
+ },
736
+ {
737
+ "epoch": 9.56,
738
+ "learning_rate": 1.3000000000000001e-05,
739
+ "loss": 1.3491,
740
+ "step": 61000
741
+ },
742
+ {
743
+ "epoch": 9.64,
744
+ "learning_rate": 1.2833333333333333e-05,
745
+ "loss": 1.3289,
746
+ "step": 61500
747
+ },
748
+ {
749
+ "epoch": 9.72,
750
+ "learning_rate": 1.2666666666666667e-05,
751
+ "loss": 1.3337,
752
+ "step": 62000
753
+ },
754
+ {
755
+ "epoch": 9.79,
756
+ "learning_rate": 1.25e-05,
757
+ "loss": 1.3365,
758
+ "step": 62500
759
+ },
760
+ {
761
+ "epoch": 9.87,
762
+ "learning_rate": 1.2333333333333333e-05,
763
+ "loss": 1.3341,
764
+ "step": 63000
765
+ },
766
+ {
767
+ "epoch": 9.95,
768
+ "learning_rate": 1.2166666666666667e-05,
769
+ "loss": 1.3331,
770
+ "step": 63500
771
+ },
772
+ {
773
+ "epoch": 10.03,
774
+ "learning_rate": 1.2e-05,
775
+ "loss": 1.3269,
776
+ "step": 64000
777
+ },
778
+ {
779
+ "epoch": 10.11,
780
+ "learning_rate": 1.1833333333333332e-05,
781
+ "loss": 1.3187,
782
+ "step": 64500
783
+ },
784
+ {
785
+ "epoch": 10.19,
786
+ "learning_rate": 1.1666666666666668e-05,
787
+ "loss": 1.3097,
788
+ "step": 65000
789
+ },
790
+ {
791
+ "epoch": 10.26,
792
+ "learning_rate": 1.1500000000000002e-05,
793
+ "loss": 1.3254,
794
+ "step": 65500
795
+ },
796
+ {
797
+ "epoch": 10.34,
798
+ "learning_rate": 1.1333333333333334e-05,
799
+ "loss": 1.3278,
800
+ "step": 66000
801
+ },
802
+ {
803
+ "epoch": 10.42,
804
+ "learning_rate": 1.1166666666666668e-05,
805
+ "loss": 1.3211,
806
+ "step": 66500
807
+ },
808
+ {
809
+ "epoch": 10.5,
810
+ "learning_rate": 1.1e-05,
811
+ "loss": 1.3023,
812
+ "step": 67000
813
+ },
814
+ {
815
+ "epoch": 10.58,
816
+ "learning_rate": 1.0833333333333334e-05,
817
+ "loss": 1.3267,
818
+ "step": 67500
819
+ },
820
+ {
821
+ "epoch": 10.66,
822
+ "learning_rate": 1.0666666666666667e-05,
823
+ "loss": 1.3097,
824
+ "step": 68000
825
+ },
826
+ {
827
+ "epoch": 10.73,
828
+ "learning_rate": 1.05e-05,
829
+ "loss": 1.3281,
830
+ "step": 68500
831
+ },
832
+ {
833
+ "epoch": 10.81,
834
+ "learning_rate": 1.0333333333333333e-05,
835
+ "loss": 1.2921,
836
+ "step": 69000
837
+ },
838
+ {
839
+ "epoch": 10.89,
840
+ "learning_rate": 1.0166666666666667e-05,
841
+ "loss": 1.3229,
842
+ "step": 69500
843
+ },
844
+ {
845
+ "epoch": 10.97,
846
+ "learning_rate": 9.999999999999999e-06,
847
+ "loss": 1.3256,
848
+ "step": 70000
849
+ },
850
+ {
851
+ "epoch": 11.05,
852
+ "learning_rate": 9.833333333333333e-06,
853
+ "loss": 1.3062,
854
+ "step": 70500
855
+ },
856
+ {
857
+ "epoch": 11.13,
858
+ "learning_rate": 9.666666666666667e-06,
859
+ "loss": 1.3046,
860
+ "step": 71000
861
+ },
862
+ {
863
+ "epoch": 11.21,
864
+ "learning_rate": 9.5e-06,
865
+ "loss": 1.3141,
866
+ "step": 71500
867
+ },
868
+ {
869
+ "epoch": 11.28,
870
+ "learning_rate": 9.333333333333334e-06,
871
+ "loss": 1.3074,
872
+ "step": 72000
873
+ },
874
+ {
875
+ "epoch": 11.36,
876
+ "learning_rate": 9.166666666666668e-06,
877
+ "loss": 1.3035,
878
+ "step": 72500
879
+ },
880
+ {
881
+ "epoch": 11.44,
882
+ "learning_rate": 9e-06,
883
+ "loss": 1.3046,
884
+ "step": 73000
885
+ },
886
+ {
887
+ "epoch": 11.52,
888
+ "learning_rate": 8.833333333333334e-06,
889
+ "loss": 1.3022,
890
+ "step": 73500
891
+ },
892
+ {
893
+ "epoch": 11.6,
894
+ "learning_rate": 8.666666666666666e-06,
895
+ "loss": 1.2966,
896
+ "step": 74000
897
+ },
898
+ {
899
+ "epoch": 11.68,
900
+ "learning_rate": 8.5e-06,
901
+ "loss": 1.3036,
902
+ "step": 74500
903
+ },
904
+ {
905
+ "epoch": 11.75,
906
+ "learning_rate": 8.333333333333334e-06,
907
+ "loss": 1.3002,
908
+ "step": 75000
909
+ },
910
+ {
911
+ "epoch": 11.83,
912
+ "learning_rate": 8.166666666666666e-06,
913
+ "loss": 1.2929,
914
+ "step": 75500
915
+ },
916
+ {
917
+ "epoch": 11.91,
918
+ "learning_rate": 8e-06,
919
+ "loss": 1.3014,
920
+ "step": 76000
921
+ },
922
+ {
923
+ "epoch": 11.99,
924
+ "learning_rate": 7.833333333333333e-06,
925
+ "loss": 1.2936,
926
+ "step": 76500
927
+ },
928
+ {
929
+ "epoch": 12.07,
930
+ "learning_rate": 7.666666666666666e-06,
931
+ "loss": 1.2997,
932
+ "step": 77000
933
+ },
934
+ {
935
+ "epoch": 12.15,
936
+ "learning_rate": 7.5e-06,
937
+ "loss": 1.2926,
938
+ "step": 77500
939
+ },
940
+ {
941
+ "epoch": 12.22,
942
+ "learning_rate": 7.333333333333333e-06,
943
+ "loss": 1.2908,
944
+ "step": 78000
945
+ },
946
+ {
947
+ "epoch": 12.3,
948
+ "learning_rate": 7.166666666666667e-06,
949
+ "loss": 1.2759,
950
+ "step": 78500
951
+ },
952
+ {
953
+ "epoch": 12.38,
954
+ "learning_rate": 7e-06,
955
+ "loss": 1.2848,
956
+ "step": 79000
957
+ },
958
+ {
959
+ "epoch": 12.46,
960
+ "learning_rate": 6.833333333333334e-06,
961
+ "loss": 1.2909,
962
+ "step": 79500
963
+ },
964
+ {
965
+ "epoch": 12.54,
966
+ "learning_rate": 6.666666666666667e-06,
967
+ "loss": 1.2815,
968
+ "step": 80000
969
+ },
970
+ {
971
+ "epoch": 12.62,
972
+ "learning_rate": 6.5000000000000004e-06,
973
+ "loss": 1.289,
974
+ "step": 80500
975
+ },
976
+ {
977
+ "epoch": 12.69,
978
+ "learning_rate": 6.333333333333333e-06,
979
+ "loss": 1.2931,
980
+ "step": 81000
981
+ },
982
+ {
983
+ "epoch": 12.77,
984
+ "learning_rate": 6.166666666666666e-06,
985
+ "loss": 1.2921,
986
+ "step": 81500
987
+ },
988
+ {
989
+ "epoch": 12.85,
990
+ "learning_rate": 6e-06,
991
+ "loss": 1.2915,
992
+ "step": 82000
993
+ },
994
+ {
995
+ "epoch": 12.93,
996
+ "learning_rate": 5.833333333333334e-06,
997
+ "loss": 1.2972,
998
+ "step": 82500
999
+ },
1000
+ {
1001
+ "epoch": 13.01,
1002
+ "learning_rate": 5.666666666666667e-06,
1003
+ "loss": 1.2701,
1004
+ "step": 83000
1005
+ },
1006
+ {
1007
+ "epoch": 13.09,
1008
+ "learning_rate": 5.5e-06,
1009
+ "loss": 1.27,
1010
+ "step": 83500
1011
+ },
1012
+ {
1013
+ "epoch": 13.16,
1014
+ "learning_rate": 5.333333333333334e-06,
1015
+ "loss": 1.269,
1016
+ "step": 84000
1017
+ },
1018
+ {
1019
+ "epoch": 13.24,
1020
+ "learning_rate": 5.166666666666667e-06,
1021
+ "loss": 1.2811,
1022
+ "step": 84500
1023
+ },
1024
+ {
1025
+ "epoch": 13.32,
1026
+ "learning_rate": 4.9999999999999996e-06,
1027
+ "loss": 1.2761,
1028
+ "step": 85000
1029
+ },
1030
+ {
1031
+ "epoch": 13.4,
1032
+ "learning_rate": 4.833333333333333e-06,
1033
+ "loss": 1.2985,
1034
+ "step": 85500
1035
+ },
1036
+ {
1037
+ "epoch": 13.48,
1038
+ "learning_rate": 4.666666666666667e-06,
1039
+ "loss": 1.2904,
1040
+ "step": 86000
1041
+ },
1042
+ {
1043
+ "epoch": 13.56,
1044
+ "learning_rate": 4.5e-06,
1045
+ "loss": 1.2771,
1046
+ "step": 86500
1047
+ },
1048
+ {
1049
+ "epoch": 13.63,
1050
+ "learning_rate": 4.333333333333333e-06,
1051
+ "loss": 1.2753,
1052
+ "step": 87000
1053
+ },
1054
+ {
1055
+ "epoch": 13.71,
1056
+ "learning_rate": 4.166666666666667e-06,
1057
+ "loss": 1.2745,
1058
+ "step": 87500
1059
+ },
1060
+ {
1061
+ "epoch": 13.79,
1062
+ "learning_rate": 4e-06,
1063
+ "loss": 1.2733,
1064
+ "step": 88000
1065
+ },
1066
+ {
1067
+ "epoch": 13.87,
1068
+ "learning_rate": 3.833333333333333e-06,
1069
+ "loss": 1.2638,
1070
+ "step": 88500
1071
+ },
1072
+ {
1073
+ "epoch": 13.95,
1074
+ "learning_rate": 3.6666666666666666e-06,
1075
+ "loss": 1.2754,
1076
+ "step": 89000
1077
+ },
1078
+ {
1079
+ "epoch": 14.03,
1080
+ "learning_rate": 3.5e-06,
1081
+ "loss": 1.2772,
1082
+ "step": 89500
1083
+ },
1084
+ {
1085
+ "epoch": 14.1,
1086
+ "learning_rate": 3.3333333333333333e-06,
1087
+ "loss": 1.2713,
1088
+ "step": 90000
1089
+ },
1090
+ {
1091
+ "epoch": 14.18,
1092
+ "learning_rate": 3.1666666666666667e-06,
1093
+ "loss": 1.2659,
1094
+ "step": 90500
1095
+ },
1096
+ {
1097
+ "epoch": 14.26,
1098
+ "learning_rate": 3e-06,
1099
+ "loss": 1.2637,
1100
+ "step": 91000
1101
+ },
1102
+ {
1103
+ "epoch": 14.34,
1104
+ "learning_rate": 2.8333333333333335e-06,
1105
+ "loss": 1.2634,
1106
+ "step": 91500
1107
+ },
1108
+ {
1109
+ "epoch": 14.42,
1110
+ "learning_rate": 2.666666666666667e-06,
1111
+ "loss": 1.2546,
1112
+ "step": 92000
1113
+ },
1114
+ {
1115
+ "epoch": 14.5,
1116
+ "learning_rate": 2.4999999999999998e-06,
1117
+ "loss": 1.2774,
1118
+ "step": 92500
1119
+ },
1120
+ {
1121
+ "epoch": 14.57,
1122
+ "learning_rate": 2.3333333333333336e-06,
1123
+ "loss": 1.2697,
1124
+ "step": 93000
1125
+ },
1126
+ {
1127
+ "epoch": 14.65,
1128
+ "learning_rate": 2.1666666666666665e-06,
1129
+ "loss": 1.2634,
1130
+ "step": 93500
1131
+ },
1132
+ {
1133
+ "epoch": 14.73,
1134
+ "learning_rate": 2e-06,
1135
+ "loss": 1.2556,
1136
+ "step": 94000
1137
+ },
1138
+ {
1139
+ "epoch": 14.81,
1140
+ "learning_rate": 1.8333333333333333e-06,
1141
+ "loss": 1.2702,
1142
+ "step": 94500
1143
+ },
1144
+ {
1145
+ "epoch": 14.89,
1146
+ "learning_rate": 1.6666666666666667e-06,
1147
+ "loss": 1.2583,
1148
+ "step": 95000
1149
+ },
1150
+ {
1151
+ "epoch": 14.97,
1152
+ "learning_rate": 1.5e-06,
1153
+ "loss": 1.2736,
1154
+ "step": 95500
1155
+ },
1156
+ {
1157
+ "epoch": 15.04,
1158
+ "learning_rate": 1.3333333333333334e-06,
1159
+ "loss": 1.2582,
1160
+ "step": 96000
1161
+ },
1162
+ {
1163
+ "epoch": 15.12,
1164
+ "learning_rate": 1.1666666666666668e-06,
1165
+ "loss": 1.2404,
1166
+ "step": 96500
1167
+ },
1168
+ {
1169
+ "epoch": 15.2,
1170
+ "learning_rate": 1e-06,
1171
+ "loss": 1.2672,
1172
+ "step": 97000
1173
+ },
1174
+ {
1175
+ "epoch": 15.28,
1176
+ "learning_rate": 8.333333333333333e-07,
1177
+ "loss": 1.2545,
1178
+ "step": 97500
1179
+ },
1180
+ {
1181
+ "epoch": 15.36,
1182
+ "learning_rate": 6.666666666666667e-07,
1183
+ "loss": 1.2667,
1184
+ "step": 98000
1185
+ },
1186
+ {
1187
+ "epoch": 15.44,
1188
+ "learning_rate": 5e-07,
1189
+ "loss": 1.2499,
1190
+ "step": 98500
1191
+ },
1192
+ {
1193
+ "epoch": 15.51,
1194
+ "learning_rate": 3.3333333333333335e-07,
1195
+ "loss": 1.263,
1196
+ "step": 99000
1197
+ },
1198
+ {
1199
+ "epoch": 15.59,
1200
+ "learning_rate": 1.6666666666666668e-07,
1201
+ "loss": 1.2481,
1202
+ "step": 99500
1203
+ },
1204
+ {
1205
+ "epoch": 15.67,
1206
+ "learning_rate": 0.0,
1207
+ "loss": 1.2524,
1208
+ "step": 100000
1209
  }
1210
  ],
1211
  "max_steps": 100000,
1212
  "num_train_epochs": 16,
1213
+ "total_flos": 1.316302635342816e+17,
1214
  "trial_name": null,
1215
  "trial_params": null
1216
  }
{checkpoint-60000 β†’ checkpoint-100000}/training_args.bin RENAMED
File without changes
{checkpoint-60000 β†’ checkpoint-100000}/vocab.json RENAMED
File without changes
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cd99962af5a9ec8b4b730fc7f5413133bd79d42b20342bdde6c3ca0390cef4bf
3
  size 498859189
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d9da0e94e7a3aa086040aa47e1306586969404192b842b82e9b9248d87e70932
3
  size 498859189
runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:42cdb80164c8b7d7c349f89cc2959a7aca1b96ad4dce7fcbd9f09a5b7a7f7a68
3
- size 32787
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2018f06f3ccffdc876aa2cc11134f804401b383605e4ea9526e5478cff13a52a
3
+ size 35987