Update tiny models for BrosModel

#6
Files changed (5) hide show
  1. added_tokens.json +7 -0
  2. pytorch_model.bin +1 -1
  3. tokenizer.json +334 -334
  4. tokenizer_config.json +45 -0
  5. vocab.txt +276 -276
added_tokens.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "[CLS]": 2,
3
+ "[MASK]": 4,
4
+ "[PAD]": 0,
5
+ "[SEP]": 3,
6
+ "[UNK]": 1
7
+ }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b8ca25149fc92fc7e0110b1e4a2aed4786f69a4e12b7f5bed5513ea148efc539
3
  size 908482
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b6fbe8f6d1f78655bfd9125b2eb90940db4a85d492f41cfb6510a951e263f0ea
3
  size 908482
tokenizer.json CHANGED
@@ -935,340 +935,340 @@
935
  "/": 787,
936
  "3": 788,
937
  "~": 789,
938
- "##a": 790,
939
- "##l": 791,
940
- "##k": 792,
941
- "##n": 793,
942
- "##s": 794,
943
- "##r": 795,
944
- "##i": 796,
945
- "##e": 797,
946
- "##g": 798,
947
- "##t": 799,
948
- "##d": 800,
949
- "##o": 801,
950
- "##u": 802,
951
- "##v": 803,
952
- "##y": 804,
953
- "##c": 805,
954
- "##h": 806,
955
- "##m": 807,
956
- "##p": 808,
957
- "##2": 809,
958
- "##1": 810,
959
- "##3": 811,
960
- "##x": 812,
961
- "##q": 813,
962
- "##f": 814,
963
- "##b": 815,
964
- "##z": 816,
965
- "##9": 817,
966
- "##6": 818,
967
- "##0": 819,
968
- "##7": 820,
969
- "##w": 821,
970
- "##5": 822,
971
- "##4": 823,
972
- "##æ": 824,
973
- "##j": 825,
974
- "##8": 826,
975
- "##っ": 827,
976
- "##こ": 828,
977
- "##ん": 829,
978
- "##ォ": 830,
979
- "##ル": 831,
980
- "##テ": 832,
981
- "##η": 833,
982
- "##μ": 834,
983
- "##τ": 835,
984
- "##ρ": 836,
985
- "##α": 837,
986
- "##ा": 838,
987
- "##न": 839,
988
- "##れ": 840,
989
- "##い": 841,
990
- "##ν": 842,
991
- "##פ": 843,
992
- "##ה": 844,
993
- "##ي": 845,
994
- "##ف": 846,
995
- "##ا": 847,
996
- "##ł": 848,
997
- "##ร": 849,
998
- "##р": 850,
999
- "##е": 851,
1000
- "##м": 852,
1001
- "##а": 853,
1002
- "##ه": 854,
1003
- "##ø": 855,
1004
- "##ש": 856,
1005
- "##מ": 857,
1006
- "##צ": 858,
1007
- "##ן": 859,
1008
- "##л": 860,
1009
- "##х": 861,
1010
- "##თ": 862,
1011
- "##ა": 863,
1012
- "##ვ": 864,
1013
- "##რ": 865,
1014
- "##ი": 866,
1015
- "##ल": 867,
1016
- "##द": 868,
1017
- "##ß": 869,
1018
- "##ʻ": 870,
1019
- "##ε": 871,
1020
- "##ο": 872,
1021
- "##ള": 873,
1022
- "##し": 874,
1023
- "##も": 875,
1024
- "##ხ": 876,
1025
- "##ე": 877,
1026
- "##დ": 878,
1027
- "##ˈ": 879,
1028
- "##ɪ": 880,
1029
- "##ו": 881,
1030
- "##ף": 882,
1031
- "##อ": 883,
1032
- "##ก": 884,
1033
- "##ว": 885,
1034
- "##υ": 886,
1035
- "##є": 887,
1036
- "##λ": 888,
1037
- "##ς": 889,
1038
- "##ɜ": 890,
1039
- "##ː": 891,
1040
- "##き": 892,
1041
- "##о": 893,
1042
- "##с": 894,
1043
- "##п": 895,
1044
- "##д": 896,
1045
- "##н": 897,
1046
- "##く": 898,
1047
- "##り": 899,
1048
- "##あ": 900,
1049
- "##う": 901,
1050
- "##β": 902,
1051
- "##δ": 903,
1052
- "##ω": 904,
1053
- "##र": 905,
1054
- "##ɡ": 906,
1055
- "##ı": 907,
1056
- "##ს": 908,
1057
- "##ტ": 909,
1058
- "##ჱ": 910,
1059
- "##セ": 911,
1060
- "##リ": 912,
1061
- "##オ": 913,
1062
- "##ス": 914,
1063
- "##ਲ": 915,
1064
- "##ਾ": 916,
1065
- "##ਹ": 917,
1066
- "##ل": 918,
1067
- "##ب": 919,
1068
- "##ن": 920,
1069
- "##ლ": 921,
1070
- "##მ": 922,
1071
- "##წ": 923,
1072
- "##ფ": 924,
1073
- "##س": 925,
1074
- "##د": 926,
1075
- "##م": 927,
1076
- "##ت": 928,
1077
- "##ɑ": 929,
1078
- "##ハ": 930,
1079
- "##ト": 931,
1080
- "##ش": 932,
1081
- "##خ": 933,
1082
- "##ゥ": 934,
1083
- "##ナ": 935,
1084
- "##ə": 936,
1085
- "##ซ": 937,
1086
- "##ッ": 938,
1087
- "##ラ": 939,
1088
- "##ー": 940,
1089
- "##と": 941,
1090
- "##в": 942,
1091
- "##т": 943,
1092
- "##к": 944,
1093
- "##и": 945,
1094
- "##ל": 946,
1095
- "##χ": 947,
1096
- "##ء": 948,
1097
- "##か": 949,
1098
- "##ാ": 950,
1099
- "##ഹ": 951,
1100
- "##უ": 952,
1101
- "##ロ": 953,
1102
- "##ล": 954,
1103
- "##ฮ": 955,
1104
- "##エ": 956,
1105
- "##タ": 957,
1106
- "##イ": 958,
1107
- "##ю": 959,
1108
- "##з": 960,
1109
- "##י": 961,
1110
- "##ס": 962,
1111
- "##ɾ": 963,
1112
- "##シ": 964,
1113
- "##ʔ": 965,
1114
- "##ɒ": 966,
1115
- "##レ": 967,
1116
- "##チ": 968,
1117
- "##ψ": 969,
1118
- "##ι": 970,
1119
- "##フ": 971,
1120
- "##ェ": 972,
1121
- "##ィ": 973,
1122
- "##ر": 974,
1123
- "##º": 975,
1124
- "##ო": 976,
1125
- "##я": 977,
1126
- "##の": 978,
1127
- "##た": 979,
1128
- "##ま": 980,
1129
- "##ち": 981,
1130
- "##ゃ": 982,
1131
- "##ン": 983,
1132
- "##ク": 984,
1133
- "##đ": 985,
1134
- "##ウ": 986,
1135
- "##ァ": 987,
1136
- "##キ": 988,
1137
- "##ュ": 989,
1138
- "##ア": 990,
1139
- "##π": 991,
1140
- "##κ": 992,
1141
- "##ɛ": 993,
1142
- "##ʊ": 994,
1143
- "##ш": 995,
1144
- "##ц": 996,
1145
- "##ь": 997,
1146
- "##ᄇ": 998,
1147
- "##ᅮ": 999,
1148
- "##ᄃ": 1000,
1149
- "##ᅢ": 1001,
1150
- "##ᅡ": 1002,
1151
- "##ᆯ": 1003,
1152
- "##ᄅ": 1004,
1153
- "##ง": 1005,
1154
- "##พ": 1006,
1155
- "##ไ": 1007,
1156
- "##ช": 1008,
1157
- "##ย": 1009,
1158
- "##า": 1010,
1159
- "##เ": 1011,
1160
- "##ป": 1012,
1161
- "##ɐ": 1013,
1162
- "##ि": 1014,
1163
- "##ɫ": 1015,
1164
- "##な": 1016,
1165
- "##ミ": 1017,
1166
- "##ъ": 1018,
1167
- "##ж": 1019,
1168
- "##ภ": 1020,
1169
- "##ด": 1021,
1170
- "##ʃ": 1022,
1171
- "##3": 1023,
1172
- "##サ": 1024,
1173
- "##ქ": 1025,
1174
- "##ნ": 1026,
1175
- "##ع": 1027,
1176
- "##ة": 1028,
1177
- "##ゆ": 1029,
1178
- "##ら": 1030,
1179
- "##つ": 1031,
1180
- "##ذ": 1032,
1181
- "##व": 1033,
1182
- "##ह": 1034,
1183
- "##क": 1035,
1184
- "##ण": 1036,
1185
- "##स": 1037,
1186
- "##せ": 1038,
1187
- "##ツ": 1039,
1188
- "##ネ": 1040,
1189
- "##る": 1041,
1190
- "##ჳ": 1042,
1191
- "##ɔ": 1043,
1192
- "##ᵻ": 1044,
1193
- "##θ": 1045,
1194
- "##ग": 1046,
1195
- "##γ": 1047,
1196
- "##ョ": 1048,
1197
- "##ܕ": 1049,
1198
- "##ܝ": 1050,
1199
- "##ܢ": 1051,
1200
- "##ܬ": 1052,
1201
- "##ც": 1053,
1202
- "##ʿ": 1054,
1203
- "##す": 1055,
1204
- "##め": 1056,
1205
- "##は": 1057,
1206
- "##ム": 1058,
1207
- "##у": 1059,
1208
- "##ณ": 1060,
1209
- "##ม": 1061,
1210
- "##ต": 1062,
1211
- "##გ": 1063,
1212
- "##ল": 1064,
1213
- "##ჲ": 1065,
1214
- "##ひ": 1066,
1215
- "##œ": 1067,
1216
- "##ق": 1068,
1217
- "##ב": 1069,
1218
- "##ת": 1070,
1219
- "##א": 1071,
1220
- "##נ": 1072,
1221
- "##ð": 1073,
1222
- "##σ": 1074,
1223
- "##و": 1075,
1224
- "##ح": 1076,
1225
- "##ษ": 1077,
1226
- "##ฐ": 1078,
1227
- "##া": 1079,
1228
- "##হ": 1080,
1229
- "##ई": 1081,
1230
- "##ك": 1082,
1231
- "##ャ": 1083,
1232
- "##モ": 1084,
1233
- "##ニ": 1085,
1234
- "##ם": 1086,
1235
- "##ܠ": 1087,
1236
- "##ܗ": 1088,
1237
- "##ܐ": 1089,
1238
- "##ʒ": 1090,
1239
- "##ˌ": 1091,
1240
- "##ɽ": 1092,
1241
- "##ะ": 1093,
1242
- "##น": 1094,
1243
- "##г": 1095,
1244
- "##ɳ": 1096,
1245
- "##ы": 1097,
1246
- "##を": 1098,
1247
- "##แ": 1099,
1248
- "##お": 1100,
1249
- "##み": 1101,
1250
- "##わ": 1102,
1251
- "##ノ": 1103,
1252
- "##ξ": 1104,
1253
- "##ʁ": 1105,
1254
- "##ص": 1106,
1255
- "##ר": 1107,
1256
- "##カ": 1108,
1257
- "##ʲ": 1109,
1258
- "##ث": 1110,
1259
- "##ょ": 1111,
1260
- "##に": 1112,
1261
- "##ค": 1113,
1262
- "##ᅦ": 1114,
1263
- "##ᅩ": 1115,
1264
- "##ᆨ": 1116,
1265
- "##ᅵ": 1117,
1266
- "##ᆸ": 1118,
1267
- "##ᅧ": 1119,
1268
- "##ᆼ": 1120,
1269
- "##ᄋ": 1121,
1270
- "##ᆫ": 1122,
1271
- "##マ": 1123
1272
  }
1273
  }
1274
  }
 
935
  "/": 787,
936
  "3": 788,
937
  "~": 789,
938
+ "##v": 790,
939
+ "##e": 791,
940
+ "##r": 792,
941
+ "##g": 793,
942
+ "##n": 794,
943
+ "##a": 795,
944
+ "##p": 796,
945
+ "##i": 797,
946
+ "##s": 798,
947
+ "##l": 799,
948
+ "##o": 800,
949
+ "##c": 801,
950
+ "##t": 802,
951
+ "##u": 803,
952
+ "##h": 804,
953
+ "##q": 805,
954
+ "##j": 806,
955
+ "##y": 807,
956
+ "##b": 808,
957
+ "##m": 809,
958
+ "##k": 810,
959
+ "##0": 811,
960
+ "##2": 812,
961
+ "##d": 813,
962
+ "##ป": 814,
963
+ "##ย": 815,
964
+ "##3": 816,
965
+ "##7": 817,
966
+ "##f": 818,
967
+ "##x": 819,
968
+ "##1": 820,
969
+ "##8": 821,
970
+ "##w": 822,
971
+ "##z": 823,
972
+ "##5": 824,
973
+ "##9": 825,
974
+ "##6": 826,
975
+ "##4": 827,
976
+ "##ร": 828,
977
+ "##ะ": 829,
978
+ "##ช": 830,
979
+ "##อ": 831,
980
+ "##น": 832,
981
+ "##ɪ": 833,
982
+ "##ə": 834,
983
+ "##ː": 835,
984
+ "##ნ": 836,
985
+ "##ø": 837,
986
+ "##ε": 838,
987
+ "##ν": 839,
988
+ "##ο": 840,
989
+ "##ل": 841,
990
+ "##ه": 842,
991
+ "##ف": 843,
992
+ "##ر": 844,
993
+ "##س": 845,
994
+ "##ا": 846,
995
+ "##ن": 847,
996
+ "##а": 848,
997
+ "##в": 849,
998
+ "##к": 850,
999
+ "##з": 851,
1000
+ "##θ": 852,
1001
+ "##η": 853,
1002
+ "##μ": 854,
1003
+ "##ι": 855,
1004
+ "##ش": 856,
1005
+ "##ي": 857,
1006
+ "##خ": 858,
1007
+ "##ɒ": 859,
1008
+ "##ᵻ": 860,
1009
+ "##ʊ": 861,
1010
+ "##ˈ": 862,
1011
+ "##ɔ": 863,
1012
+ "##χ": 864,
1013
+ "##י": 865,
1014
+ "##פ": 866,
1015
+ "##ה": 867,
1016
+ "##и": 868,
1017
+ "##ш": 869,
1018
+ "##н": 870,
1019
+ "##е": 871,
1020
+ "##ц": 872,
1021
+ "##ь": 873,
1022
+ "##ł": 874,
1023
+ "##ʁ": 875,
1024
+ "##र": 876,
1025
+ "##ล": 877,
1026
+ "##า": 878,
1027
+ "##ณ": 879,
1028
+ "##ม": 880,
1029
+ "##ต": 881,
1030
+ "##か": 882,
1031
+ "##な": 883,
1032
+ "##た": 884,
1033
+ "##ʻ": 885,
1034
+ "##ɛ": 886,
1035
+ "##ש": 887,
1036
+ "##מ": 888,
1037
+ "##צ": 889,
1038
+ "##ɡ": 890,
1039
+ "##æ": 891,
1040
+ "##ו": 892,
1041
+ "##め": 893,
1042
+ "##の": 894,
1043
+ "##ɑ": 895,
1044
+ "##ल": 896,
1045
+ "##λ": 897,
1046
+ "##α": 898,
1047
+ "##っ": 899,
1048
+ "##ო": 900,
1049
+ "##მ": 901,
1050
+ "##ე": 902,
1051
+ "##ლ": 903,
1052
+ "##ი": 904,
1053
+ "##р": 905,
1054
+ "##с": 906,
1055
+ "##т": 907,
1056
+ "##о": 908,
1057
+ "##ς": 909,
1058
+ "##ラ": 910,
1059
+ "##ー": 911,
1060
+ "##я": 912,
1061
+ "##い": 913,
1062
+ "##ち": 914,
1063
+ "##ゃ": 915,
1064
+ "##ん": 916,
1065
+ "##ュ": 917,
1066
+ "##タ": 918,
1067
+ "##ス": 919,
1068
+ "##ρ": 920,
1069
+ "##υ": 921,
1070
+ "##უ": 922,
1071
+ "##ც": 923,
1072
+ "##ს": 924,
1073
+ "##τ": 925,
1074
+ "##ਲ": 926,
1075
+ "##ਹ": 927,
1076
+ "##イ": 928,
1077
+ "##ル": 929,
1078
+ "##đ": 930,
1079
+ "##є": 931,
1080
+ "##ʃ": 932,
1081
+ "##ю": 933,
1082
+ "##ウ": 934,
1083
+ "##ァ": 935,
1084
+ "##キ": 936,
1085
+ "##リ": 937,
1086
+ "##ア": 938,
1087
+ "##3": 939,
1088
+ "##ხ": 940,
1089
+ "##ვ": 941,
1090
+ "##ि": 942,
1091
+ "##რ": 943,
1092
+ "##გ": 944,
1093
+ "##ა": 945,
1094
+ "##ネ": 946,
1095
+ "##ク": 947,
1096
+ "##シ": 948,
1097
+ "##ョ": 949,
1098
+ "##ン": 950,
1099
+ "##व": 951,
1100
+ "##ा": 952,
1101
+ "##द": 953,
1102
+ "##あ": 954,
1103
+ "##თ": 955,
1104
+ "##つ": 956,
1105
+ "##せ": 957,
1106
+ "##ы": 958,
1107
+ "##ð": 959,
1108
+ "##ฮ": 960,
1109
+ "##ɜ": 961,
1110
+ "##テ": 962,
1111
+ "##ィ": 963,
1112
+ "##ニ": 964,
1113
+ "##κ": 965,
1114
+ "##ω": 966,
1115
+ "##ह": 967,
1116
+ "##क": 968,
1117
+ "##ף": 969,
1118
+ "##ı": 970,
1119
+ "##ッ": 971,
1120
+ "##ト": 972,
1121
+ "##フ": 973,
1122
+ "##ォ": 974,
1123
+ "##ゥ": 975,
1124
+ "##ナ": 976,
1125
+ "##ɾ": 977,
1126
+ "##π": 978,
1127
+ "##す": 979,
1128
+ "##წ": 980,
1129
+ "##ფ": 981,
1130
+ "##ל": 982,
1131
+ "##א": 983,
1132
+ "##ξ": 984,
1133
+ "##ق": 985,
1134
+ "##د": 986,
1135
+ "##न": 987,
1136
+ "##ई": 988,
1137
+ "##м": 989,
1138
+ "##は": 990,
1139
+ "##り": 991,
1140
+ "##く": 992,
1141
+ "##わ": 993,
1142
+ "##م": 994,
1143
+ "##و": 995,
1144
+ "##া": 996,
1145
+ "##হ": 997,
1146
+ "##ェ": 998,
1147
+ "##ハ": 999,
1148
+ "##ら": 1000,
1149
+ "##ص": 1001,
1150
+ "##ح": 1002,
1151
+ "##ت": 1003,
1152
+ "##セ": 1004,
1153
+ "##オ": 1005,
1154
+ "##л": 1006,
1155
+ "##ܕ": 1007,
1156
+ "##ܝ": 1008,
1157
+ "##ܢ": 1009,
1158
+ "##ܬ": 1010,
1159
+ "##ਾ": 1011,
1160
+ "##ɫ": 1012,
1161
+ "##き": 1013,
1162
+ "##ˌ": 1014,
1163
+ "##ჲ": 1015,
1164
+ "##し": 1016,
1165
+ "##נ": 1017,
1166
+ "##ʿ": 1018,
1167
+ "##დ": 1019,
1168
+ "##ण": 1020,
1169
+ "##ع": 1021,
1170
+ "##ة": 1022,
1171
+ "##ミ": 1023,
1172
+ "##ʔ": 1024,
1173
+ "##ܠ": 1025,
1174
+ "##ܗ": 1026,
1175
+ "##ܐ": 1027,
1176
+ "##ذ": 1028,
1177
+ "##ß": 1029,
1178
+ "##ם": 1030,
1179
+ "##ب": 1031,
1180
+ "##ס": 1032,
1181
+ "##β": 1033,
1182
+ "##у": 1034,
1183
+ "##を": 1035,
1184
+ "##แ": 1036,
1185
+ "##ก": 1037,
1186
+ "##เ": 1038,
1187
+ "##ב": 1039,
1188
+ "##ר": 1040,
1189
+ "##ま": 1041,
1190
+ "##º": 1042,
1191
+ "##ჳ": 1043,
1192
+ "##レ": 1044,
1193
+ "##チ": 1045,
1194
+ "##ტ": 1046,
1195
+ "##ള": 1047,
1196
+ "##ъ": 1048,
1197
+ "##д": 1049,
1198
+ "##ภ": 1050,
1199
+ "##ด": 1051,
1200
+ "##ψ": 1052,
1201
+ "##γ": 1053,
1202
+ "##ქ": 1054,
1203
+ "##ノ": 1055,
1204
+ "##พ": 1056,
1205
+ "##х": 1057,
1206
+ "##δ": 1058,
1207
+ "##ロ": 1059,
1208
+ "##れ": 1060,
1209
+ "##る": 1061,
1210
+ "##ょ": 1062,
1211
+ "##に": 1063,
1212
+ "##お": 1064,
1213
+ "##ᅡ": 1065,
1214
+ "##ᆯ": 1066,
1215
+ "##ᄅ": 1067,
1216
+ "##ム": 1068,
1217
+ "##ᄇ": 1069,
1218
+ "##ᅮ": 1070,
1219
+ "##ᄃ": 1071,
1220
+ "##ᅢ": 1072,
1221
+ "##ゆ": 1073,
1222
+ "##ɐ": 1074,
1223
+ "##う": 1075,
1224
+ "##п": 1076,
1225
+ "##г": 1077,
1226
+ "##カ": 1078,
1227
+ "##エ": 1079,
1228
+ "##ء": 1080,
1229
+ "##ค": 1081,
1230
+ "##ว": 1082,
1231
+ "##ჱ": 1083,
1232
+ "##ж": 1084,
1233
+ "##サ": 1085,
1234
+ "##ャ": 1086,
1235
+ "##モ": 1087,
1236
+ "##ซ": 1088,
1237
+ "##こ": 1089,
1238
+ "##ษ": 1090,
1239
+ "##ฐ": 1091,
1240
+ "##ツ": 1092,
1241
+ "##ग": 1093,
1242
+ "##ɽ": 1094,
1243
+ "##ল": 1095,
1244
+ "##マ": 1096,
1245
+ "##ᅦ": 1097,
1246
+ "##ᅩ": 1098,
1247
+ "##ᆨ": 1099,
1248
+ "##ᅵ": 1100,
1249
+ "##ᆸ": 1101,
1250
+ "##ᅧ": 1102,
1251
+ "##ᆼ": 1103,
1252
+ "##ᄋ": 1104,
1253
+ "##ᆫ": 1105,
1254
+ "##ง": 1106,
1255
+ "##ไ": 1107,
1256
+ "##み": 1108,
1257
+ "##ാ": 1109,
1258
+ "##ഹ": 1110,
1259
+ "##と": 1111,
1260
+ "##ת": 1112,
1261
+ "##ן": 1113,
1262
+ "##ɳ": 1114,
1263
+ "##ひ": 1115,
1264
+ "##ʲ": 1116,
1265
+ "##œ": 1117,
1266
+ "##σ": 1118,
1267
+ "##स": 1119,
1268
+ "##も": 1120,
1269
+ "##ك": 1121,
1270
+ "##ʒ": 1122,
1271
+ "##ث": 1123
1272
  }
1273
  }
1274
  }
tokenizer_config.json CHANGED
@@ -1,4 +1,47 @@
1
  {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  "clean_up_tokenization_spaces": true,
3
  "cls_token": "[CLS]",
4
  "do_basic_tokenize": true,
@@ -7,9 +50,11 @@
7
  "model_max_length": 512,
8
  "never_split": null,
9
  "pad_token": "[PAD]",
 
10
  "sep_token": "[SEP]",
11
  "strip_accents": null,
12
  "tokenize_chinese_chars": true,
13
  "tokenizer_class": "BertTokenizer",
 
14
  "unk_token": "[UNK]"
15
  }
 
1
  {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "additional_special_tokens": [],
45
  "clean_up_tokenization_spaces": true,
46
  "cls_token": "[CLS]",
47
  "do_basic_tokenize": true,
 
50
  "model_max_length": 512,
51
  "never_split": null,
52
  "pad_token": "[PAD]",
53
+ "processor_class": "BrosProcessor",
54
  "sep_token": "[SEP]",
55
  "strip_accents": null,
56
  "tokenize_chinese_chars": true,
57
  "tokenizer_class": "BertTokenizer",
58
+ "tokenizer_file": "/tmp/tmp9miez0wi/tokenizer.json",
59
  "unk_token": "[UNK]"
60
  }
vocab.txt CHANGED
@@ -788,330 +788,313 @@ z
788
 
789
 
790
 
791
- ##a
792
- ##l
793
- ##k
794
- ##n
795
- ##s
796
- ##r
797
- ##i
798
  ##e
 
799
  ##g
800
- ##t
801
- ##d
 
 
 
 
802
  ##o
803
- ##u
804
- ##v
805
- ##y
806
  ##c
 
 
807
  ##h
 
 
 
 
808
  ##m
809
- ##p
 
810
  ##2
811
- ##1
 
 
812
  ##3
813
- ##x
814
- ##q
815
  ##f
816
- ##b
 
 
 
817
  ##z
 
818
  ##9
819
  ##6
820
- ##0
821
- ##7
822
- ##w
823
- ##5
824
  ##4
825
- ##æ
826
- ##j
827
- ##8
828
- ##っ
829
- ##こ
830
- ##ん
831
- ##ォ
832
- ##ル
833
- ##テ
834
- ##η
835
- ##μ
836
- ##τ
837
- ##ρ
838
- ##α
839
- ##ा
840
- ##न
841
- ##れ
842
- ##い
843
- ##ν
844
- ##פ
845
- ##ה
846
- ##ي
847
- ##ف
848
- ##ا
849
- ##ł
850
  ##ร
851
- ##р
852
- ##е
853
- ##м
854
- ##а
855
- ##ه
 
 
 
856
  ##ø
857
- ##ש
858
- ##מ
859
- ##צ
860
- ##ן
861
- ##л
862
- ##х
863
- ##თ
864
- ##ა
865
- ##ვ
866
- ##რ
867
- ##ი
868
- ##ल
869
- ##द
870
- ##ß
871
- ##ʻ
872
  ##ε
 
873
  ##ο
874
- ##ള
875
- ##し
876
- ##も
877
- ##ხ
878
- ##ე
879
- ##დ
880
- ##ˈ
881
- ##ɪ
882
- ##ו
883
- ##ף
884
- ##อ
885
- ##ก
886
- ##ว
887
- ##υ
888
- ##є
889
- ##λ
890
- ##ς
891
- ##ɜ
892
- ##ː
893
- ##き
894
- ##о
895
- ##с
896
- ##п
897
- ##д
898
- ##н
899
- ##く
900
- ##り
901
- ##あ
902
- ##う
903
- ##β
904
- ##δ
905
- ##ω
906
- ##र
907
- ##ɡ
908
- ##ı
909
- ##ს
910
- ##ტ
911
- ##ჱ
912
- ##セ
913
- ##リ
914
- ##オ
915
- ##ス
916
- ##ਲ
917
- ##ਾ
918
- ##ਹ
919
  ##ل
920
- ##ب
921
- ##ن
922
- ##ლ
923
- ##მ
924
- ##წ
925
- ##ფ
926
  ##س
927
- ##د
928
- ##م
929
- ##ت
930
- ##ɑ
931
- ##ハ
932
- ##ト
933
- ##ش
934
- ##خ
935
- ##ゥ
936
- ##ナ
937
- ##ə
938
- ##ซ
939
- ##ッ
940
- ##ラ
941
- ##ー
942
- ##と
943
  ##в
944
- ##т
945
  ##к
946
- ##и
947
- ##ל
948
- ##χ
949
- ##ء
950
- ##か
951
- ##ാ
952
- ##ഹ
953
- ##უ
954
- ##ロ
955
- ##ล
956
- ##ฮ
957
- ##エ
958
- ##タ
959
- ##イ
960
- ##ю
961
  ##з
962
- ##י
963
- ##ס
964
- ##ɾ
965
- ##シ
966
- ##ʔ
967
- ##ɒ
968
- ##レ
969
- ##チ
970
- ##ψ
971
  ##ι
972
- ##フ
973
- ##ェ
974
- ##ィ
975
- ##ر
976
- ##º
977
- ##ო
978
- ##я
979
- ##の
980
- ##た
981
- ##ま
982
- ##ち
983
- ##ゃ
984
- ##ン
985
- ##ク
986
- ##đ
987
- ##ウ
988
- ##ァ
989
- ##キ
990
- ##ュ
991
- ##ア
992
- ##π
993
- ##κ
994
- ##ɛ
995
  ##ʊ
 
 
 
 
 
 
 
996
  ##ш
 
 
997
  ##ц
998
  ##ь
999
- ##ᄇ
1000
- ##ᅮ
1001
- ##ᄃ
1002
- ##ᅢ
1003
- ##ᅡ
1004
- ##ᆯ
1005
- ##ᄅ
1006
- ##ง
1007
- ##พ
1008
- ##ไ
1009
- ##ช
1010
- ##ย
1011
  ##า
1012
- ##เ
1013
- ##ป
1014
- ##ɐ
1015
- ##ि
1016
- ##ɫ
1017
  ##な
1018
- ##ミ
1019
- ##ъ
1020
- ##ж
1021
- ##ภ
1022
- ##ด
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1023
  ##ʃ
 
 
 
 
 
 
1024
  ##3
1025
- ##サ
1026
- ##ქ
1027
- ##ნ
1028
- ##ع
1029
- ##ة
1030
- ##ゆ
1031
- ##ら
1032
- ##つ
1033
- ##ذ
 
 
1034
  ##व
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1035
  ##ह
1036
  ##क
1037
- ##ण
1038
- ##स
1039
- ##せ
1040
- ##ツ
1041
- ##ネ
1042
- ##る
1043
- ##ჳ
1044
- ##ɔ
1045
- ##ᵻ
1046
- ##θ
1047
- ##ग
1048
- ##γ
1049
- ##ョ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1050
  ##ܕ
1051
  ##ܝ
1052
  ##ܢ
1053
  ##ܬ
1054
- ##ც
1055
- ##ʿ
1056
- ##す
1057
- ##め
1058
- ##は
1059
- ##ム
1060
- ##у
1061
- ##ณ
1062
- ##ม
1063
- ##ต
1064
- ##გ
1065
- ##ল
1066
  ##ჲ
1067
- ##ひ
1068
- ##œ
1069
- ##ق
1070
- ##ב
1071
- ##ת
1072
- ##א
1073
  ##נ
1074
- ##ð
1075
- ##σ
1076
- ##و
1077
- ##ح
1078
- ##ษ
1079
- ##ฐ
1080
- ##া
1081
- ##হ
1082
- ##ई
1083
- ##ك
1084
- ##ャ
1085
- ##モ
1086
- ##ニ
1087
- ##ם
1088
  ##ܠ
1089
  ##ܗ
1090
  ##ܐ
1091
- ##ʒ
1092
- ##ˌ
1093
- ##ɽ
1094
- ##ะ
1095
- ##น
1096
- ##г
1097
- ##ɳ
1098
- ##ы
1099
  ##を
1100
  ##แ
1101
- ##お
1102
- ##み
1103
- ##わ
1104
- ##ノ
1105
- ##ξ
1106
- ##ʁ
1107
- ##ص
1108
  ##ר
1109
- ##カ
1110
- ##ʲ
1111
- ##ث
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1112
  ##ょ
1113
  ##に
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1114
  ##ค
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1115
  ##ᅦ
1116
  ##ᅩ
1117
  ##ᆨ
@@ -1121,4 +1104,21 @@ z
1121
  ##ᆼ
1122
  ##ᄋ
1123
  ##ᆫ
1124
- ##マ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
788
 
789
 
790
 
791
+ ##v
 
 
 
 
 
 
792
  ##e
793
+ ##r
794
  ##g
795
+ ##n
796
+ ##a
797
+ ##p
798
+ ##i
799
+ ##s
800
+ ##l
801
  ##o
 
 
 
802
  ##c
803
+ ##t
804
+ ##u
805
  ##h
806
+ ##q
807
+ ##j
808
+ ##y
809
+ ##b
810
  ##m
811
+ ##k
812
+ ##0
813
  ##2
814
+ ##d
815
+ ##ป
816
+ ##ย
817
  ##3
818
+ ##7
 
819
  ##f
820
+ ##x
821
+ ##1
822
+ ##8
823
+ ##w
824
  ##z
825
+ ##5
826
  ##9
827
  ##6
 
 
 
 
828
  ##4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
829
  ##ร
830
+ ##ะ
831
+ ##ช
832
+ ##อ
833
+ ##น
834
+ ##ɪ
835
+ ##ə
836
+ ##ː
837
+ ##ნ
838
  ##ø
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
839
  ##ε
840
+ ##ν
841
  ##ο
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
842
  ##ل
843
+ ##ه
844
+ ##ف
845
+ ##ر
 
 
 
846
  ##س
847
+ ##ا
848
+ ##ن
849
+ ##а
 
 
 
 
 
 
 
 
 
 
 
 
 
850
  ##в
 
851
  ##к
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
852
  ##з
853
+ ##θ
854
+ ##η
855
+ ##μ
 
 
 
 
 
 
856
  ##ι
857
+ ##ش
858
+ ##ي
859
+ ##خ
860
+ ##ɒ
861
+ ##ᵻ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
862
  ##ʊ
863
+ ##ˈ
864
+ ##ɔ
865
+ ##χ
866
+ ##י
867
+ ##פ
868
+ ##ה
869
+ ##и
870
  ##ш
871
+ ##н
872
+ ##е
873
  ##ц
874
  ##ь
875
+ ##ł
876
+ ##ʁ
877
+ ##र
878
+ ##ล
 
 
 
 
 
 
 
 
879
  ##า
880
+ ##ณ
881
+ ##ม
882
+ ##ต
883
+ ##か
 
884
  ##な
885
+ ##た
886
+ ##ʻ
887
+ ##ɛ
888
+ ##ש
889
+ ##מ
890
+ ##צ
891
+ ##ɡ
892
+ ##æ
893
+ ##ו
894
+ ##め
895
+ ##の
896
+ ##ɑ
897
+ ##ल
898
+ ##λ
899
+ ##α
900
+ ##っ
901
+ ##ო
902
+ ##მ
903
+ ##ე
904
+ ##ლ
905
+ ##ი
906
+ ##р
907
+ ##с
908
+ ##т
909
+ ##о
910
+ ##ς
911
+ ##ラ
912
+ ##ー
913
+ ##я
914
+ ##い
915
+ ##ち
916
+ ##ゃ
917
+ ##ん
918
+ ##ュ
919
+ ##タ
920
+ ##ス
921
+ ##ρ
922
+ ##υ
923
+ ##უ
924
+ ##ც
925
+ ##ს
926
+ ##τ
927
+ ##ਲ
928
+ ##ਹ
929
+ ##イ
930
+ ##ル
931
+ ##đ
932
+ ##є
933
  ##ʃ
934
+ ##ю
935
+ ##ウ
936
+ ##ァ
937
+ ##キ
938
+ ##リ
939
+ ##ア
940
  ##3
941
+ ##ხ
942
+ ##ვ
943
+ ##ि
944
+ ##რ
945
+ ##გ
946
+ ##ა
947
+ ##ネ
948
+ ##ク
949
+ ##シ
950
+ ##ョ
951
+ ##ン
952
  ##व
953
+ ##ा
954
+ ##द
955
+ ##あ
956
+ ##თ
957
+ ##つ
958
+ ##せ
959
+ ##ы
960
+ ##ð
961
+ ##ฮ
962
+ ##ɜ
963
+ ##テ
964
+ ##ィ
965
+ ##ニ
966
+ ##κ
967
+ ##ω
968
  ##ह
969
  ##क
970
+ ##ף
971
+ ##ı
972
+ ##ッ
973
+ ##ト
974
+ ##フ
975
+ ##ォ
976
+ ##ゥ
977
+ ##ナ
978
+ ##ɾ
979
+ ##π
980
+ ##す
981
+ ##წ
982
+ ##ფ
983
+ ##ל
984
+ ##א
985
+ ##ξ
986
+ ##ق
987
+ ##د
988
+ ##न
989
+ ##ई
990
+ ##м
991
+ ##は
992
+ ##り
993
+ ##く
994
+ ##わ
995
+ ##م
996
+ ##و
997
+ ##া
998
+ ##হ
999
+ ##ェ
1000
+ ##ハ
1001
+ ##ら
1002
+ ##ص
1003
+ ##ح
1004
+ ##ت
1005
+ ##セ
1006
+ ##オ
1007
+ ##л
1008
  ##ܕ
1009
  ##ܝ
1010
  ##ܢ
1011
  ##ܬ
1012
+ ##ਾ
1013
+ ##ɫ
1014
+ ##き
1015
+ ##ˌ
 
 
 
 
 
 
 
 
1016
  ##ჲ
1017
+ ##し
 
 
 
 
 
1018
  ##נ
1019
+ ##ʿ
1020
+ ##დ
1021
+ ##ण
1022
+ ##ع
1023
+ ##ة
1024
+ ##ミ
1025
+ ##ʔ
 
 
 
 
 
 
 
1026
  ##ܠ
1027
  ##ܗ
1028
  ##ܐ
1029
+ ##ذ
1030
+ ##ß
1031
+ ##ם
1032
+ ##ب
1033
+ ##ס
1034
+ ##β
1035
+ ##у
 
1036
  ##を
1037
  ##แ
1038
+ ##ก
1039
+ ##เ
1040
+ ##ב
 
 
 
 
1041
  ##ר
1042
+ ##ま
1043
+ ##º
1044
+ ##ჳ
1045
+ ##レ
1046
+ ##チ
1047
+ ##ტ
1048
+ ##ള
1049
+ ##ъ
1050
+ ##д
1051
+ ##ภ
1052
+ ##ด
1053
+ ##ψ
1054
+ ##γ
1055
+ ##ქ
1056
+ ##ノ
1057
+ ##พ
1058
+ ##х
1059
+ ##δ
1060
+ ##ロ
1061
+ ##れ
1062
+ ##る
1063
  ##ょ
1064
  ##に
1065
+ ##お
1066
+ ##ᅡ
1067
+ ##ᆯ
1068
+ ##ᄅ
1069
+ ##ム
1070
+ ##ᄇ
1071
+ ##ᅮ
1072
+ ##ᄃ
1073
+ ##ᅢ
1074
+ ##ゆ
1075
+ ##ɐ
1076
+ ##う
1077
+ ##п
1078
+ ##г
1079
+ ##カ
1080
+ ##エ
1081
+ ##ء
1082
  ##ค
1083
+ ##ว
1084
+ ##ჱ
1085
+ ##ж
1086
+ ##サ
1087
+ ##ャ
1088
+ ##モ
1089
+ ##ซ
1090
+ ##こ
1091
+ ##ษ
1092
+ ##ฐ
1093
+ ##ツ
1094
+ ##ग
1095
+ ##ɽ
1096
+ ##ল
1097
+ ##マ
1098
  ##ᅦ
1099
  ##ᅩ
1100
  ##ᆨ
 
1104
  ##ᆼ
1105
  ##ᄋ
1106
  ##ᆫ
1107
+ ##ง
1108
+ ##ไ
1109
+ ##み
1110
+ ##ാ
1111
+ ##ഹ
1112
+ ##と
1113
+ ##ת
1114
+ ##ן
1115
+ ##ɳ
1116
+ ##ひ
1117
+ ##ʲ
1118
+ ##œ
1119
+ ##σ
1120
+ ##स
1121
+ ##も
1122
+ ##ك
1123
+ ##ʒ
1124
+ ##ث