Turkish-LLama3 / aixr-tokenizer.json
Meforgers's picture
Upload folder using huggingface_hub
fc5d554 verified
raw
history blame contribute delete
No virus
6.4 kB
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "[CLS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "[SEP]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "[PAD]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "[MASK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "[UNK]",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"ignore_merges": false,
"vocab": {
"[UNK]": 0,
"[CLS]": 1,
"[SEP]": 2,
"[PAD]": 3,
"[MASK]": 4,
"!": 5,
"\"": 6,
",": 7,
".": 8,
":": 9,
"?": 10,
"A": 11,
"B": 12,
"M": 13,
"N": 14,
"R": 15,
"S": 16,
"T": 17,
"[": 18,
"]": 19,
"a": 20,
"b": 21,
"c": 22,
"d": 23,
"e": 24,
"f": 25,
"g": 26,
"h": 27,
"i": 28,
"k": 29,
"l": 30,
"m": 31,
"n": 32,
"o": 33,
"q": 34,
"r": 35,
"s": 36,
"t": 37,
"u": 38,
"v": 39,
"w": 40,
"x": 41,
"y": 42,
"z": 43,
"{": 44,
"}": 45,
"ü": 46,
"ı": 47,
"ş": 48,
"bi": 49,
"\":": 50,
"er": 51,
"an": 52,
"on": 53,
"bil": 54,
"abil": 55,
"es": 56,
"ir": 57,
"abilir": 58,
"\",": 59,
"im": 60,
"ion": 61,
"or": 62,
"qu": 63,
"sw": 64,
"tion": 65,
"answ": 66,
"estion": 67,
"question": 68,
"answer": 69,
"?\",": 70,
"en": 71,
"ha": 72,
"sor": 73,
"ya": 74,
"},": 75,
"bir": 76,
".\"": 77,
"Ba": 78,
"as": 79,
"ben": 80,
"cı": 81,
"dı": 82,
"in": 83,
"iy": 84,
"iz": 85,
"ka": 86,
"kon": 87,
"labilir": 88,
"mcı": 89,
"miy": 90,
"olabilir": 91,
"rdı": 92,
"sin": 93,
"um": 94,
"va": 95,
"ıl": 96,
"şe": 97,
"şka": 98,
"hava": 99,
"sorabilir": 100,
"yardı": 101,
"Başka": 102,
"asıl": 103,
"konu": 104,
"yardımcı": 105,
"!\"": 106,
"!\",": 107,
"?\"": 108,
"Ai": 109,
"Bu": 110,
"Ban": 111,
"Ma": 112,
"Mer": 113,
"Nasıl": 114,
"Ri": 115,
"Sen": 116,
"Te": 117,
"al": 118,
"ba": 119,
"ca": 120,
"da": 121,
"du": 122,
"der": 123,
"ef": 124,
"eya": 125,
"emiy": 126,
"eder": 127,
"gi": 128,
"gü": 129,
"her": 130,
"han": 131,
"kk": 132,
"kim": 133,
"ler": 134,
"nu": 135,
"nasıl": 136,
"rum": 137,
"rler": 138,
"unu": 139,
"veya": 140,
"xr": 141,
"ürler": 142,
"şabilir": 143,
"bilemiy": 144,
"esef": 145,
"orum": 146,
"haba": 147,
"soru": 148,
"miyim": 149,
"olabilirim": 150,
"siniz": 151,
"şey": 152,
"şekk": 153,
"sorabilirsiniz": 154,
"konuda": 155,
"konuşabilir": 156,
"Aixr": 157,
"Bugü": 158,
"Bana": 159,
"Maal": 160,
"Merhaba": 161,
"Rica": 162,
"Teşekk": 163,
"durum": 164,
"ederim": 165,
"herhan": 166,
"kimsin": 167,
"bilemiyorum": 168,
"konuşabiliriz": 169,
"Bugün": 170,
"Maalesef": 171,
"Teşekkürler": 172,
"durumunu": 173,
"herhangi": 174
},
"merges": [
"b i",
"\" :",
"e r",
"a n",
"o n",
"bi l",
"a bil",
"e s",
"i r",
"abil ir",
"\" ,",
"i m",
"i on",
"o r",
"q u",
"s w",
"t ion",
"an sw",
"es tion",
"qu estion",
"answ er",
"? \",",
"e n",
"h a",
"s or",
"y a",
"} ,",
"bi r",
". \"",
"B a",
"a s",
"b en",
"c ı",
"d ı",
"i n",
"i y",
"i z",
"k a",
"k on",
"l abilir",
"m cı",
"m iy",
"o labilir",
"r dı",
"s in",
"u m",
"v a",
"ı l",
"ş e",
"ş ka",
"ha va",
"sor abilir",
"ya rdı",
"Ba şka",
"as ıl",
"kon u",
"yardı mcı",
"! \"",
"! \",",
"? \"",
"A i",
"B u",
"B an",
"M a",
"M er",
"N asıl",
"R i",
"S en",
"T e",
"a l",
"b a",
"c a",
"d a",
"d u",
"d er",
"e f",
"e ya",
"e miy",
"e der",
"g i",
"g ü",
"h er",
"h an",
"k k",
"k im",
"l er",
"n u",
"n asıl",
"r um",
"r ler",
"u nu",
"v eya",
"x r",
"ü rler",
"ş abilir",
"bil emiy",
"es ef",
"or um",
"ha ba",
"sor u",
"miy im",
"olabilir im",
"sin iz",
"şe y",
"şe kk",
"sorabilir siniz",
"konu da",
"konu şabilir",
"Ai xr",
"Bu gü",
"Ban a",
"Ma al",
"Mer haba",
"Ri ca",
"Te şekk",
"du rum",
"eder im",
"her han",
"kim sin",
"bilemiy orum",
"konuşabilir iz",
"Bugü n",
"Maal esef",
"Teşekk ürler",
"durum unu",
"herhan gi"
]
}
}