SykoLLM / tokenizer.json
syko818121's picture
SykoLLM v1: Sıfırdan eğitilen 5M parametreli özel model.
5c71899 verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "[PAD]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "[BOS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "[EOS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "ByteLevel",
"add_prefix_space": false,
"trim_offsets": true,
"use_regex": true
},
"post_processor": null,
"decoder": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": true,
"use_regex": true
},
"model": {
"type": "BPE",
"dropout": null,
"unk_token": null,
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"ignore_merges": false,
"vocab": {
"[UNK]": 0,
"[PAD]": 1,
"[BOS]": 2,
"[EOS]": 3,
".": 4,
"B": 5,
"D": 6,
"E": 7,
"G": 8,
"K": 9,
"L": 10,
"M": 11,
"N": 12,
"O": 13,
"P": 14,
"S": 15,
"T": 16,
"U": 17,
"Y": 18,
"[": 19,
"]": 20,
"a": 21,
"b": 22,
"c": 23,
"d": 24,
"e": 25,
"f": 26,
"g": 27,
"h": 28,
"i": 29,
"k": 30,
"l": 31,
"m": 32,
"n": 33,
"o": 34,
"p": 35,
"r": 36,
"s": 37,
"t": 38,
"u": 39,
"v": 40,
"y": 41,
"z": 42,
"§": 43,
"±": 44,
"¶": 45,
"¼": 46,
"Ã": 47,
"Ä": 48,
"Å": 49,
"Ċ": 50,
"Ġ": 51,
"Ł": 52,
"ı": 53,
"EO": 54,
"EOS": 55,
"ar": 56,
"Ġ[": 57,
"en": 58,
"ĠÃ": 59,
"ÄŁ": 60,
"in": 61,
"me": 62,
"od": 63,
"er": 64,
"el": 65,
"an": 66,
"ir": 67,
"Ġm": 68,
"ma": 69,
"si": 70,
"Ġç": 71,
"ÅŁ": 72,
"Ġy": 73,
"Ġi": 74,
"ır": 75,
"Ġk": 76,
"Ġs": 77,
"odel": 78,
"Ġv": 79,
"ren": 80,
"¶ÄŁ": 81,
"ĠÃ¶ÄŁ": 82,
"ĠÃ¶ÄŁren": 83,
"on": 84,
"ev": 85,
"Ġya": 86,
"ara": 87,
"ok": 88,
"Ġmodel": 89,
"lı": 90,
"it": 91,
"dir": 92,
"il": 93,
"Ġka": 94,
"eri": 95,
"im": 96,
"ĠÃ¶ÄŁrenme": 97,
"ek": 98,
"le": 99,
"as": 100,
"yon": 101,
"met": 102,
"erin": 103,
"ha": 104,
"pma": 105,
"Ġyapma": 106,
"Ġyapmak": 107,
"ay": 108,
"Ġb": 109,
"Ġp": 110,
"idir": 111,
"oken": 112,
"da": 113,
"ÄŁit": 114,
"Ġz": 115,
"dar": 116,
"Ġo": 117,
"Ġkadar": 118,
"la": 119,
"ç": 120,
"dır": 121,
"ıdır": 122,
"iy": 123,
"or": 124,
"ın": 125,
"Ġveri": 126,
"Ġg": 127,
"ĠÃ¶ÄŁrenmesi": 128,
"Token": 129,
"iz": 130,
"lara": 131,
"midir": 132,
"ni": 133,
"Ġmet": 134,
"ılara": 135,
"irme": 136,
"Ġçev": 137,
"ÅŁle": 138,
"ĠiÅŁle": 139,
"Ġsay": 140,
"asyon": 141,
"Tokeniz": 142,
"Ġmetni": 143,
"Ġçevirme": 144,
"ĠiÅŁlemidir": 145,
"Ġsayılara": 146,
"Tokenizasyon": 147,
"Derin": 148,
"GP": 149,
"alı": 150,
"de": 151,
"hı": 152,
"leri": 153,
"zlı": 154,
"zerin": 155,
"¼zerin": 156,
"Ġda": 157,
"ĠGP": 158,
"Ġhı": 159,
"Ġüzerin": 160,
"Ġçalı": 161,
"ÅŁÄ±r": 162,
"Ġmodelleri": 163,
"Ġdaha": 164,
"ĠGPU": 165,
"Ġhızlı": 166,
"Ġüzerinde": 167,
"ĠçalÄ±ÅŁÄ±r": 168,
"Py": 169,
"hon": 170,
"kl": 171,
"thon": 172,
"odla": 173,
"Ġçok": 174,
"Ġile": 175,
"Ġkodla": 176,
"evkl": 177,
"Ġzevkl": 178,
"Python": 179,
"Ġkodlama": 180,
"Ġzevkli": 181,
"Kod": 182,
"ken": 183,
"men": 184,
"ta": 185,
"zar": 186,
"Ġha": 187,
"arç": 188,
"ĠÃ¶ÄŁrenmen": 189,
"Ġyazar": 190,
"asıdır": 191,
"Ġbir": 192,
"Ġparç": 193,
"Ġhata": 194,
"ĠÃ¶ÄŁrenmenin": 195,
"Ġyazarken": 196,
"Ġparçasıdır": 197,
"Bu": 198,
"di": 199,
"dan": 200,
"esi": 201,
"eÅŁ": 202,
"eÄŁit": 203,
"fır": 204,
"resi": 205,
"ĠeÄŁit": 206,
"ıfır": 207,
"Ġmil": 208,
"Ġsıfır": 209,
"Ġve": 210,
"Ġvar": 211,
"aramet": 212,
"ildi": 213,
"ĠbeÅŁ": 214,
"Ġparamet": 215,
"ĠeÄŁitildi": 216,
"Ġmilyon": 217,
"Ġsıfırdan": 218,
"Ġparametresi": 219,
"EÄŁit": 220,
"lu": 221,
"lit": 222,
"ne": 223,
"se": 224,
"yi": 225,
"Ġne": 226,
"eliy": 227,
"Ġiyi": 228,
"Ġkalit": 229,
"Ġolu": 230,
"Ġverisi": 231,
"EÄŁitim": 232,
"eliyse": 233,
"Ġkaliteliyse": 234,
"Ġolur": 235,
"LP": 236,
"NLP": 237,
"Tr": 238,
"al": 239,
"dev": 240,
"for": 241,
"isi": 242,
"rs": 243,
"rim": 244,
"sfor": 245,
"tt": 246,
"ĠNLP": 247,
"Ġal": 248,
"Ġdev": 249,
"arisi": 250,
"mers": 251,
"anın": 252,
"ansfor": 253,
"Ġmim": 254,
"Ġyara": 255,
"Transfor": 256,
"ttı": 257,
"Ġalanın": 258,
"Ġdevrim": 259,
"Ġmimarisi": 260,
"Ġyarattı": 261,
"Transformers": 262,
"Ġalanında": 263,
"Ya": 264,
"ce": 265,
"ece": 266,
"len": 267,
"pay": 268,
"san": 269,
"Ġin": 270,
"ĠÅŁ": 271,
"ÄŁin": 272,
"ģın": 273,
"elece": 274,
"lıģın": 275,
"diriy": 276,
"illen": 277,
"eka": 278,
"ekillen": 279,
"Ġzeka": 280,
"Ġgelece": 281,
"Yapay": 282,
"sanlıģın": 283,
"Ġinsanlıģın": 284,
"ĠÅŁekillen": 285,
"ÄŁini": 286,
"diriyor": 287,
"ĠgeleceÄŁini": 288,
"ĠÅŁekillendiriyor": 289,
"Model": 290,
"lidir": 291,
"sma": 292,
"token": 293,
"usma": 294,
"yı": 295,
"ĠEOS": 296,
"Ġtoken": 297,
"erek": 298,
"Ġiç": 299,
"Ġsusma": 300,
"Ġgerek": 301,
"Modelin": 302,
"Ġtokenı": 303,
"Ġiçin": 304,
"Ġsusmayı": 305,
"Ġgereklidir": 306,
"Ma": 307,
"at": 308,
"den": 309,
"kar": 310,
"kin": 311,
"Ġan": 312,
"ıkar": 313,
"anat": 314,
"Ġçıkar": 315,
"Ġsanat": 316,
"lam": 317,
"Ġveriden": 318,
"Makin": 319,
"Ġanlam": 320,
"Ġçıkarma": 321,
"Ġsanatıdır": 322,
"Makine": 323
},
"merges": [
[
"Ä",
"±"
],
[
"E",
"O"
],
[
"EO",
"S"
],
[
"a",
"r"
],
[
"Ġ",
"["
],
[
"e",
"n"
],
[
"Ġ",
"Ã"
],
[
"Ä",
"Ł"
],
[
"i",
"n"
],
[
"m",
"e"
],
[
"o",
"d"
],
[
"e",
"r"
],
[
"e",
"l"
],
[
"a",
"n"
],
[
"i",
"r"
],
[
"Ġ",
"m"
],
[
"m",
"a"
],
[
"s",
"i"
],
[
"ĠÃ",
"§"
],
[
"Å",
"Ł"
],
[
"Ġ",
"y"
],
[
"Ġ",
"i"
],
[
"ı",
"r"
],
[
"Ġ",
"k"
],
[
"Ġ",
"s"
],
[
"od",
"el"
],
[
"Ġ",
"v"
],
[
"r",
"en"
],
[
"¶",
"ÄŁ"
],
[
"ĠÃ",
"¶ÄŁ"
],
[
"ĠÃ¶ÄŁ",
"ren"
],
[
"o",
"n"
],
[
"e",
"v"
],
[
"Ġy",
"a"
],
[
"ar",
"a"
],
[
"o",
"k"
],
[
"Ġm",
"odel"
],
[
"l",
"ı"
],
[
"i",
"t"
],
[
"d",
"ir"
],
[
"i",
"l"
],
[
"Ġk",
"a"
],
[
"er",
"i"
],
[
"i",
"m"
],
[
"ĠÃ¶ÄŁren",
"me"
],
[
"e",
"k"
],
[
"l",
"e"
],
[
"a",
"s"
],
[
"y",
"on"
],
[
"me",
"t"
],
[
"er",
"in"
],
[
"h",
"a"
],
[
"p",
"ma"
],
[
"Ġya",
"pma"
],
[
"Ġyapma",
"k"
],
[
"a",
"y"
],
[
"Ġ",
"b"
],
[
"Ġ",
"p"
],
[
"i",
"dir"
],
[
"ok",
"en"
],
[
"d",
"a"
],
[
"ÄŁ",
"it"
],
[
"Ġ",
"z"
],
[
"d",
"ar"
],
[
"Ġ",
"o"
],
[
"Ġka",
"dar"
],
[
"l",
"a"
],
[
"Ã",
"§"
],
[
"d",
"ır"
],
[
"ı",
"dır"
],
[
"i",
"y"
],
[
"o",
"r"
],
[
"ı",
"n"
],
[
"Ġv",
"eri"
],
[
"Ġ",
"g"
],
[
"ĠÃ¶ÄŁrenme",
"si"
],
[
"T",
"oken"
],
[
"i",
"z"
],
[
"l",
"ara"
],
[
"m",
"idir"
],
[
"n",
"i"
],
[
"Ġ",
"met"
],
[
"ı",
"lara"
],
[
"ir",
"me"
],
[
"Ġç",
"ev"
],
[
"ÅŁ",
"le"
],
[
"Ġi",
"ÅŁle"
],
[
"Ġs",
"ay"
],
[
"as",
"yon"
],
[
"Token",
"iz"
],
[
"Ġmet",
"ni"
],
[
"Ġçev",
"irme"
],
[
"ĠiÅŁle",
"midir"
],
[
"Ġsay",
"ılara"
],
[
"Tokeniz",
"asyon"
],
[
"D",
"erin"
],
[
"G",
"P"
],
[
"a",
"lı"
],
[
"d",
"e"
],
[
"h",
"ı"
],
[
"l",
"eri"
],
[
"z",
"lı"
],
[
"z",
"erin"
],
[
"¼",
"zerin"
],
[
"Ġ",
"da"
],
[
"Ġ",
"GP"
],
[
"Ġ",
"hı"
],
[
"ĠÃ",
"¼zerin"
],
[
"Ġç",
"alı"
],
[
"ÅŁ",
"ır"
],
[
"Ġmodel",
"leri"
],
[
"Ġda",
"ha"
],
[
"ĠGP",
"U"
],
[
"Ġhı",
"zlı"
],
[
"Ġüzerin",
"de"
],
[
"Ġçalı",
"ÅŁÄ±r"
],
[
"P",
"y"
],
[
"h",
"on"
],
[
"k",
"l"
],
[
"t",
"hon"
],
[
"od",
"la"
],
[
"Ġç",
"ok"
],
[
"Ġi",
"le"
],
[
"Ġk",
"odla"
],
[
"ev",
"kl"
],
[
"Ġz",
"evkl"
],
[
"Py",
"thon"
],
[
"Ġkodla",
"ma"
],
[
"Ġzevkl",
"i"
],
[
"K",
"od"
],
[
"k",
"en"
],
[
"m",
"en"
],
[
"t",
"a"
],
[
"z",
"ar"
],
[
"Ġ",
"ha"
],
[
"ar",
"ç"
],
[
"ĠÃ¶ÄŁren",
"men"
],
[
"Ġya",
"zar"
],
[
"as",
"ıdır"
],
[
"Ġb",
"ir"
],
[
"Ġp",
"arç"
],
[
"Ġha",
"ta"
],
[
"ĠÃ¶ÄŁrenmen",
"in"
],
[
"Ġyazar",
"ken"
],
[
"Ġparç",
"asıdır"
],
[
"B",
"u"
],
[
"d",
"i"
],
[
"d",
"an"
],
[
"e",
"si"
],
[
"e",
"ÅŁ"
],
[
"e",
"ÄŁit"
],
[
"f",
"ır"
],
[
"r",
"esi"
],
[
"Ġ",
"eÄŁit"
],
[
"ı",
"fır"
],
[
"Ġm",
"il"
],
[
"Ġs",
"ıfır"
],
[
"Ġv",
"e"
],
[
"Ġv",
"ar"
],
[
"ara",
"met"
],
[
"il",
"di"
],
[
"Ġb",
"eÅŁ"
],
[
"Ġp",
"aramet"
],
[
"ĠeÄŁit",
"ildi"
],
[
"Ġmil",
"yon"
],
[
"Ġsıfır",
"dan"
],
[
"Ġparamet",
"resi"
],
[
"E",
"ÄŁit"
],
[
"l",
"u"
],
[
"l",
"it"
],
[
"n",
"e"
],
[
"s",
"e"
],
[
"y",
"i"
],
[
"Ġ",
"ne"
],
[
"el",
"iy"
],
[
"Ġi",
"yi"
],
[
"Ġka",
"lit"
],
[
"Ġo",
"lu"
],
[
"Ġveri",
"si"
],
[
"EÄŁit",
"im"
],
[
"eliy",
"se"
],
[
"Ġkalit",
"eliyse"
],
[
"Ġolu",
"r"
],
[
"L",
"P"
],
[
"N",
"LP"
],
[
"T",
"r"
],
[
"a",
"l"
],
[
"d",
"ev"
],
[
"f",
"or"
],
[
"i",
"si"
],
[
"r",
"s"
],
[
"r",
"im"
],
[
"s",
"for"
],
[
"t",
"t"
],
[
"Ġ",
"NLP"
],
[
"Ġ",
"al"
],
[
"Ġ",
"dev"
],
[
"ar",
"isi"
],
[
"me",
"rs"
],
[
"an",
"ın"
],
[
"an",
"sfor"
],
[
"Ġm",
"im"
],
[
"Ġy",
"ara"
],
[
"Tr",
"ansfor"
],
[
"tt",
"ı"
],
[
"Ġal",
"anın"
],
[
"Ġdev",
"rim"
],
[
"Ġmim",
"arisi"
],
[
"Ġyara",
"ttı"
],
[
"Transfor",
"mers"
],
[
"Ġalanın",
"da"
],
[
"Y",
"a"
],
[
"c",
"e"
],
[
"e",
"ce"
],
[
"l",
"en"
],
[
"p",
"ay"
],
[
"s",
"an"
],
[
"Ġ",
"in"
],
[
"Ġ",
"ÅŁ"
],
[
"ÄŁ",
"in"
],
[
"ÄŁ",
"ın"
],
[
"el",
"ece"
],
[
"lı",
"ģın"
],
[
"dir",
"iy"
],
[
"il",
"len"
],
[
"ek",
"a"
],
[
"ek",
"illen"
],
[
"Ġz",
"eka"
],
[
"Ġg",
"elece"
],
[
"Ya",
"pay"
],
[
"san",
"lıģın"
],
[
"Ġin",
"sanlıģın"
],
[
"ĠÅŁ",
"ekillen"
],
[
"ÄŁin",
"i"
],
[
"diriy",
"or"
],
[
"Ġgelece",
"ÄŁini"
],
[
"ĠÅŁekillen",
"diriyor"
],
[
"M",
"odel"
],
[
"l",
"idir"
],
[
"s",
"ma"
],
[
"t",
"oken"
],
[
"u",
"sma"
],
[
"y",
"ı"
],
[
"Ġ",
"EOS"
],
[
"Ġ",
"token"
],
[
"er",
"ek"
],
[
"Ġi",
"ç"
],
[
"Ġs",
"usma"
],
[
"Ġg",
"erek"
],
[
"Model",
"in"
],
[
"Ġtoken",
"ı"
],
[
"Ġiç",
"in"
],
[
"Ġsusma",
"yı"
],
[
"Ġgerek",
"lidir"
],
[
"M",
"a"
],
[
"a",
"t"
],
[
"d",
"en"
],
[
"k",
"ar"
],
[
"k",
"in"
],
[
"Ġ",
"an"
],
[
"ı",
"kar"
],
[
"an",
"at"
],
[
"Ġç",
"ıkar"
],
[
"Ġs",
"anat"
],
[
"la",
"m"
],
[
"Ġveri",
"den"
],
[
"Ma",
"kin"
],
[
"Ġan",
"lam"
],
[
"Ġçıkar",
"ma"
],
[
"Ġsanat",
"ıdır"
],
[
"Makin",
"e"
]
]
}
}