BioTokenizer-BFD-BPE-100 / tokenizer.json
dotan1111's picture
Upload tokenizer.json
57453a9
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "<UNK>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": {
"type": "Lowercase"
},
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "<UNK>",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"vocab": {
"<UNK>": 0,
"a": 1,
"b": 2,
"c": 3,
"d": 4,
"e": 5,
"f": 6,
"g": 7,
"h": 8,
"i": 9,
"k": 10,
"l": 11,
"m": 12,
"n": 13,
"o": 14,
"p": 15,
"q": 16,
"r": 17,
"s": 18,
"t": 19,
"u": 20,
"v": 21,
"w": 22,
"x": 23,
"y": 24,
"z": 25,
"aa": 26,
"ll": 27,
"la": 28,
"gg": 29,
"rr": 30,
"va": 31,
"ga": 32,
"ra": 33,
"lv": 34,
"pa": 35,
"lg": 36,
"sa": 37,
"lr": 38,
"ea": 39,
"vv": 40,
"da": 41,
"ta": 42,
"ls": 43,
"lp": 44,
"ia": 45,
"gr": 46,
"ld": 47,
"le": 48,
"ss": 49,
"gv": 50,
"lt": 51,
"gs": 52,
"er": 53,
"gt": 54,
"gd": 55,
"pp": 56,
"li": 57,
"vr": 58,
"ge": 59,
"qa": 60,
"fa": 61,
"lk": 62,
"vt": 63,
"vs": 64,
"gi": 65,
"vd": 66,
"ve": 67,
"lf": 68,
"pr": 69,
"ka": 70,
"dr": 71,
"ps": 72,
"lq": 73,
"ee": 74,
"tt": 75,
"gk": 76,
"na": 77,
"sr": 78,
"pd": 79,
"vi": 80,
"pe": 81,
"gf": 82,
"ln": 83,
"pt": 84,
"gq": 85,
"ha": 86,
"st": 87,
"dd": 88,
"qr": 89,
"gp": 90,
"ei": 91,
"ya": 92,
"kk": 93,
"gn": 94,
"lh": 95,
"vp": 96,
"tr": 97,
"vf": 98,
"si": 99
},
"merges": [
"a a",
"l l",
"l a",
"g g",
"r r",
"v a",
"g a",
"r a",
"l v",
"p a",
"l g",
"s a",
"l r",
"e a",
"v v",
"d a",
"t a",
"l s",
"l p",
"i a",
"g r",
"l d",
"l e",
"s s",
"g v",
"l t",
"g s",
"e r",
"g t",
"g d",
"p p",
"l i",
"v r",
"g e",
"q a",
"f a",
"l k",
"v t",
"v s",
"g i",
"v d",
"v e",
"l f",
"p r",
"k a",
"d r",
"p s",
"l q",
"e e",
"t t",
"g k",
"n a",
"s r",
"p d",
"v i",
"p e",
"g f",
"l n",
"p t",
"g q",
"h a",
"s t",
"d d",
"q r",
"g p",
"e i",
"y a",
"k k",
"g n",
"l h",
"v p",
"t r",
"v f",
"s i"
]
}
}