deep_bpe_400 / tokenizer.json
GinnM's picture
Upload tokenizer
016c3b0
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "<pad>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "<cls>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "<sep>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "<unk>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "<mask>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": null,
"post_processor": {
"type": "TemplateProcessing",
"single": [
{
"SpecialToken": {
"id": "<cls>",
"type_id": 0
}
},
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "<sep>",
"type_id": 0
}
}
],
"pair": [
{
"SpecialToken": {
"id": "<cls>",
"type_id": 0
}
},
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "<sep>",
"type_id": 0
}
},
{
"Sequence": {
"id": "B",
"type_id": 1
}
},
{
"SpecialToken": {
"id": "<sep>",
"type_id": 1
}
}
],
"special_tokens": {
"<cls>": {
"id": "<cls>",
"ids": [
1
],
"tokens": [
"<cls>"
]
},
"<sep>": {
"id": "<sep>",
"ids": [
2
],
"tokens": [
"<sep>"
]
}
}
},
"decoder": {
"type": "BPEDecoder",
"suffix": "</w>"
},
"model": {
"type": "BPE",
"dropout": null,
"unk_token": null,
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"vocab": {
"<pad>": 0,
"<cls>": 1,
"<sep>": 2,
"<unk>": 3,
"<mask>": 4,
"A": 5,
"B": 6,
"C": 7,
"D": 8,
"E": 9,
"F": 10,
"G": 11,
"H": 12,
"I": 13,
"K": 14,
"L": 15,
"M": 16,
"N": 17,
"O": 18,
"P": 19,
"Q": 20,
"R": 21,
"S": 22,
"T": 23,
"U": 24,
"V": 25,
"W": 26,
"X": 27,
"Y": 28,
"Z": 29,
"AA": 30,
"LL": 31,
"SS": 32,
"LA": 33,
"LS": 34,
"GG": 35,
"LV": 36,
"LR": 37,
"LE": 38,
"LG": 39,
"LT": 40,
"AV": 41,
"AG": 42,
"LP": 43,
"LD": 44,
"LI": 45,
"AS": 46,
"EE": 47,
"RR": 48,
"LK": 49,
"VV": 50,
"AT": 51,
"AE": 52,
"SG": 53,
"DG": 54,
"AR": 55,
"KK": 56,
"AI": 57,
"AP": 58,
"TT": 59,
"LN": 60,
"LF": 61,
"LQ": 62,
"AD": 63,
"SV": 64,
"ST": 65,
"SI": 66,
"SP": 67,
"DE": 68,
"TG": 69,
"TV": 70,
"SR": 71,
"SE": 72,
"DV": 73,
"PP": 74,
"KE": 75,
"KI": 76,
"DI": 77,
"GV": 78,
"AQ": 79,
"AF": 80,
"RV": 81,
"TI": 82,
"NI": 83,
"PV": 84,
"RE": 85,
"SF": 86,
"KV": 87,
"NG": 88,
"LY": 89,
"RI": 90,
"PG": 91,
"RG": 92,
"DD": 93,
"PE": 94,
"AK": 95,
"NV": 96,
"SD": 97,
"TE": 98,
"QQ": 99,
"NE": 100,
"SK": 101,
"LH": 102,
"SQ": 103,
"GI": 104,
"FV": 105,
"TP": 106,
"GE": 107,
"SN": 108,
"FI": 109,
"AY": 110,
"AN": 111,
"QV": 112,
"RK": 113,
"SY": 114,
"IV": 115,
"FE": 116,
"DP": 117,
"RP": 118,
"IE": 119,
"QE": 120,
"FG": 121,
"LM": 122,
"NN": 123,
"KG": 124,
"RT": 125,
"RD": 126,
"RQ": 127,
"II": 128,
"TD": 129,
"AH": 130,
"AM": 131,
"YV": 132,
"RF": 133,
"EV": 134,
"KN": 135,
"KD": 136,
"IG": 137,
"LC": 138,
"KT": 139,
"KP": 140,
"RY": 141,
"SH": 142,
"QG": 143,
"NP": 144,
"QI": 145,
"FD": 146,
"YG": 147,
"RN": 148,
"YE": 149,
"TF": 150,
"MV": 151,
"RH": 152,
"LW": 153,
"QP": 154,
"TN": 155,
"DF": 156,
"KQ": 157,
"YI": 158,
"ME": 159,
"VE": 160,
"LAA": 161,
"PD": 162,
"FF": 163,
"PI": 164,
"AC": 165,
"ND": 166,
"VG": 167,
"TY": 168,
"TQ": 169,
"SM": 170,
"AW": 171,
"KY": 172,
"HG": 173,
"SC": 174,
"HV": 175,
"ID": 176,
"KF": 177,
"EG": 178,
"KR": 179,
"EI": 180,
"MG": 181,
"TR": 182,
"NF": 183,
"SW": 184,
"TK": 185,
"YD": 186,
"NQ": 187,
"ALL": 188,
"MI": 189,
"PT": 190,
"NY": 191,
"QD": 192,
"GD": 193,
"NT": 194,
"HE": 195,
"VI": 196,
"PF": 197,
"ALA": 198,
"RS": 199,
"HI": 200,
"CG": 201,
"TS": 202,
"HP": 203,
"YF": 204,
"NK": 205,
"VD": 206,
"RW": 207,
"PQ": 208,
"RM": 209,
"LSS": 210,
"ED": 211,
"MD": 212,
"TH": 213,
"YY": 214,
"RC": 215,
"QK": 216,
"QF": 217,
"QT": 218,
"GF": 219,
"IP": 220,
"MP": 221,
"VP": 222,
"SA": 223,
"IF": 224,
"EK": 225,
"HD": 226,
"QR": 227,
"SLL": 228,
"QN": 229,
"HF": 230,
"VF": 231,
"YP": 232,
"GT": 233,
"DT": 234,
"GP": 235,
"MK": 236,
"CV": 237,
"MT": 238,
"AGG": 239,
"VT": 240,
"DY": 241,
"ALR": 242,
"ALV": 243,
"NR": 244,
"DK": 245,
"IT": 246,
"GK": 247,
"FP": 248,
"QY": 249,
"GR": 250,
"DR": 251,
"SAA": 252,
"ER": 253,
"LGG": 254,
"ALS": 255,
"EP": 256,
"ALG": 257,
"FT": 258,
"ASS": 259,
"HH": 260,
"ET": 261,
"EQ": 262,
"DN": 263,
"IK": 264,
"WV": 265,
"YT": 266,
"IN": 267,
"SLS": 268,
"MN": 269,
"QH": 270,
"ALE": 271,
"GN": 272,
"MF": 273,
"GY": 274,
"IY": 275,
"KH": 276,
"EN": 277,
"EF": 278,
"DQ": 279,
"PR": 280,
"KS": 281,
"GQ": 282,
"AAV": 283,
"YN": 284,
"ALT": 285,
"ARR": 286,
"AAG": 287,
"PN": 288,
"SLA": 289,
"RLL": 290,
"FY": 291,
"FN": 292,
"PK": 293,
"MQ": 294,
"ALP": 295,
"MR": 296,
"ALD": 297,
"CI": 298,
"SGG": 299,
"WI": 300,
"HT": 301,
"CE": 302,
"WG": 303,
"YK": 304,
"YQ": 305,
"CP": 306,
"HR": 307,
"VR": 308,
"SAS": 309,
"WE": 310,
"HQ": 311,
"ALI": 312,
"YR": 313,
"IQ": 314,
"FK": 315,
"VK": 316,
"ALK": 317,
"ADG": 318,
"SLV": 319,
"VN": 320,
"CD": 321,
"XX": 322,
"AEE": 323,
"SLP": 324,
"LAG": 325,
"IR": 326,
"VQ": 327,
"FQ": 328,
"TW": 329,
"SLT": 330,
"SLG": 331,
"TC": 332,
"PY": 333,
"SLR": 334,
"LAE": 335,
"LLV": 336,
"HY": 337,
"LLG": 338,
"LAV": 339,
"FR": 340,
"SLE": 341,
"KM": 342,
"HN": 343,
"SAV": 344,
"SAG": 345,
"DW": 346,
"LLE": 347,
"ALQ": 348,
"TM": 349,
"SLI": 350,
"AAE": 351,
"SAT": 352,
"CF": 353,
"DH": 354,
"SLD": 355,
"HK": 356,
"STT": 357,
"SLK": 358,
"EY": 359,
"GGG": 360,
"VY": 361,
"KW": 362,
"LSG": 363,
"AAAA": 364,
"PH": 365,
"ALF": 366,
"MM": 367,
"SAP": 368,
"SVV": 369,
"LEE": 370,
"RAA": 371,
"WD": 372,
"NH": 373,
"CT": 374,
"MY": 375,
"ALN": 376,
"AVV": 377,
"RLR": 378,
"ASG": 379,
"WT": 380,
"SEE": 381,
"SRR": 382,
"DM": 383,
"LSV": 384,
"KC": 385,
"TAA": 386,
"WQ": 387,
"IH": 388,
"AKK": 389,
"LSE": 390,
"SSG": 391,
"LVV": 392,
"AGV": 393,
"WP": 394,
"LLD": 395,
"SLF": 396,
"WF": 397,
"WR": 398,
"GH": 399
},
"merges": [
"A A",
"L L",
"S S",
"L A",
"L S",
"G G",
"L V",
"L R",
"L E",
"L G",
"L T",
"A V",
"A G",
"L P",
"L D",
"L I",
"A S",
"E E",
"R R",
"L K",
"V V",
"A T",
"A E",
"S G",
"D G",
"A R",
"K K",
"A I",
"A P",
"T T",
"L N",
"L F",
"L Q",
"A D",
"S V",
"S T",
"S I",
"S P",
"D E",
"T G",
"T V",
"S R",
"S E",
"D V",
"P P",
"K E",
"K I",
"D I",
"G V",
"A Q",
"A F",
"R V",
"T I",
"N I",
"P V",
"R E",
"S F",
"K V",
"N G",
"L Y",
"R I",
"P G",
"R G",
"D D",
"P E",
"A K",
"N V",
"S D",
"T E",
"Q Q",
"N E",
"S K",
"L H",
"S Q",
"G I",
"F V",
"T P",
"G E",
"S N",
"F I",
"A Y",
"A N",
"Q V",
"R K",
"S Y",
"I V",
"F E",
"D P",
"R P",
"I E",
"Q E",
"F G",
"L M",
"N N",
"K G",
"R T",
"R D",
"R Q",
"I I",
"T D",
"A H",
"A M",
"Y V",
"R F",
"E V",
"K N",
"K D",
"I G",
"L C",
"K T",
"K P",
"R Y",
"S H",
"Q G",
"N P",
"Q I",
"F D",
"Y G",
"R N",
"Y E",
"T F",
"M V",
"R H",
"L W",
"Q P",
"T N",
"D F",
"K Q",
"Y I",
"M E",
"V E",
"L AA",
"P D",
"F F",
"P I",
"A C",
"N D",
"V G",
"T Y",
"T Q",
"S M",
"A W",
"K Y",
"H G",
"S C",
"H V",
"I D",
"K F",
"E G",
"K R",
"E I",
"M G",
"T R",
"N F",
"S W",
"T K",
"Y D",
"N Q",
"A LL",
"M I",
"P T",
"N Y",
"Q D",
"G D",
"N T",
"H E",
"V I",
"P F",
"A LA",
"R S",
"H I",
"C G",
"T S",
"H P",
"Y F",
"N K",
"V D",
"R W",
"P Q",
"R M",
"L SS",
"E D",
"M D",
"T H",
"Y Y",
"R C",
"Q K",
"Q F",
"Q T",
"G F",
"I P",
"M P",
"V P",
"S A",
"I F",
"E K",
"H D",
"Q R",
"S LL",
"Q N",
"H F",
"V F",
"Y P",
"G T",
"D T",
"G P",
"M K",
"C V",
"M T",
"A GG",
"V T",
"D Y",
"A LR",
"A LV",
"N R",
"D K",
"I T",
"G K",
"F P",
"Q Y",
"G R",
"D R",
"S AA",
"E R",
"L GG",
"A LS",
"E P",
"A LG",
"F T",
"A SS",
"H H",
"E T",
"E Q",
"D N",
"I K",
"W V",
"Y T",
"I N",
"S LS",
"M N",
"Q H",
"A LE",
"G N",
"M F",
"G Y",
"I Y",
"K H",
"E N",
"E F",
"D Q",
"P R",
"K S",
"G Q",
"AA V",
"Y N",
"A LT",
"A RR",
"AA G",
"P N",
"S LA",
"R LL",
"F Y",
"F N",
"P K",
"M Q",
"A LP",
"M R",
"A LD",
"C I",
"S GG",
"W I",
"H T",
"C E",
"W G",
"Y K",
"Y Q",
"C P",
"H R",
"V R",
"S AS",
"W E",
"H Q",
"A LI",
"Y R",
"I Q",
"F K",
"V K",
"A LK",
"A DG",
"S LV",
"V N",
"C D",
"X X",
"A EE",
"S LP",
"LA G",
"I R",
"V Q",
"F Q",
"T W",
"S LT",
"S LG",
"T C",
"P Y",
"S LR",
"LA E",
"LL V",
"H Y",
"LL G",
"LA V",
"F R",
"S LE",
"K M",
"H N",
"S AV",
"S AG",
"D W",
"LL E",
"A LQ",
"T M",
"S LI",
"AA E",
"S AT",
"C F",
"D H",
"S LD",
"H K",
"S TT",
"S LK",
"E Y",
"GG G",
"V Y",
"K W",
"LS G",
"AA AA",
"P H",
"A LF",
"M M",
"S AP",
"S VV",
"LE E",
"R AA",
"W D",
"N H",
"C T",
"M Y",
"A LN",
"AV V",
"R LR",
"AS G",
"W T",
"S EE",
"S RR",
"D M",
"LS V",
"K C",
"T AA",
"W Q",
"I H",
"A KK",
"LS E",
"SS G",
"LV V",
"AG V",
"W P",
"LL D",
"S LF",
"W F",
"W R",
"G H"
]
}
}