small_conversational_test / tokenizer.json
Narsil's picture
Narsil HF staff
Adding tokenizer.
94afb37
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 256,
"special": true,
"content": "<bos>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false
},
{
"id": 257,
"special": true,
"content": "<eos>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false
}
],
"normalizer": null,
"pre_tokenizer": null,
"post_processor": {
"type": "TemplateProcessing",
"single": [
{ "SpecialToken": { "id": "<bos>", "type_id": 0 } },
{ "Sequence": { "id": "A", "type_id": 0 } },
{ "SpecialToken": { "id": "<eos>", "type_id": 0 } }
],
"pair": [
{ "Sequence": { "id": "A", "type_id": 0 } },
{ "Sequence": { "id": "B", "type_id": 1 } }
],
"special_tokens": {
"<bos>": { "id": "<bos>", "ids": [256], "tokens": ["<bos>"] },
"<eos>": { "id": "<eos>", "ids": [257], "tokens": ["<eos>"] }
}
},
"decoder": null,
"model": {
"unk_id": null,
"vocab": [
["\u0000", 0.0],
["\u0001", 1.0],
["\u0002", 2.0],
["\u0003", 3.0],
["\u0004", 4.0],
["\u0005", 5.0],
["\u0006", 6.0],
["\u0007", 7.0],
["\b", 8.0],
["\t", 9.0],
["\n", 10.0],
["\u000b", 11.0],
["\f", 12.0],
["\r", 13.0],
["\u000e", 14.0],
["\u000f", 15.0],
["\u0010", 16.0],
["\u0011", 17.0],
["\u0012", 18.0],
["\u0013", 19.0],
["\u0014", 20.0],
["\u0015", 21.0],
["\u0016", 22.0],
["\u0017", 23.0],
["\u0018", 24.0],
["\u0019", 25.0],
["\u001a", 26.0],
["\u001b", 27.0],
["\u001c", 28.0],
["\u001d", 29.0],
["\u001e", 30.0],
["\u001f", 31.0],
[" ", 32.0],
["!", 33.0],
["\"", 34.0],
["#", 35.0],
["$", 36.0],
["%", 37.0],
["&", 38.0],
["'", 39.0],
["(", 40.0],
[")", 41.0],
["*", 42.0],
["+", 43.0],
[",", 44.0],
["-", 45.0],
[".", 46.0],
["/", 47.0],
["0", 48.0],
["1", 49.0],
["2", 50.0],
["3", 51.0],
["4", 52.0],
["5", 53.0],
["6", 54.0],
["7", 55.0],
["8", 56.0],
["9", 57.0],
[":", 58.0],
[";", 59.0],
["<", 60.0],
["=", 61.0],
[">", 62.0],
["?", 63.0],
["@", 64.0],
["A", 65.0],
["B", 66.0],
["C", 67.0],
["D", 68.0],
["E", 69.0],
["F", 70.0],
["G", 71.0],
["H", 72.0],
["I", 73.0],
["J", 74.0],
["K", 75.0],
["L", 76.0],
["M", 77.0],
["N", 78.0],
["O", 79.0],
["P", 80.0],
["Q", 81.0],
["R", 82.0],
["S", 83.0],
["T", 84.0],
["U", 85.0],
["V", 86.0],
["W", 87.0],
["X", 88.0],
["Y", 89.0],
["Z", 90.0],
["[", 91.0],
["\\", 92.0],
["]", 93.0],
["^", 94.0],
["_", 95.0],
["`", 96.0],
["a", 97.0],
["b", 98.0],
["c", 99.0],
["d", 100.0],
["e", 101.0],
["f", 102.0],
["g", 103.0],
["h", 104.0],
["i", 105.0],
["j", 106.0],
["k", 107.0],
["l", 108.0],
["m", 109.0],
["n", 110.0],
["o", 111.0],
["p", 112.0],
["q", 113.0],
["r", 114.0],
["s", 115.0],
["t", 116.0],
["u", 117.0],
["v", 118.0],
["w", 119.0],
["x", 120.0],
["y", 121.0],
["z", 122.0],
["{", 123.0],
["|", 124.0],
["}", 125.0],
["~", 126.0],
["", 127.0],
["€", 128.0],
["", 129.0],
["‚", 130.0],
["ƒ", 131.0],
["„", 132.0],
["…", 133.0],
["†", 134.0],
["‡", 135.0],
["ˆ", 136.0],
["‰", 137.0],
["Š", 138.0],
["‹", 139.0],
["Œ", 140.0],
["", 141.0],
["Ž", 142.0],
["", 143.0],
["", 144.0],
["‘", 145.0],
["’", 146.0],
["“", 147.0],
["”", 148.0],
["•", 149.0],
["–", 150.0],
["—", 151.0],
["˜", 152.0],
["™", 153.0],
["š", 154.0],
["›", 155.0],
["œ", 156.0],
["", 157.0],
["ž", 158.0],
["Ÿ", 159.0],
[" ", 160.0],
["¡", 161.0],
["¢", 162.0],
["£", 163.0],
["¤", 164.0],
["¥", 165.0],
["¦", 166.0],
["§", 167.0],
["¨", 168.0],
["©", 169.0],
["ª", 170.0],
["«", 171.0],
["¬", 172.0],
["­", 173.0],
["®", 174.0],
["¯", 175.0],
["°", 176.0],
["±", 177.0],
["²", 178.0],
["³", 179.0],
["´", 180.0],
["µ", 181.0],
["¶", 182.0],
["·", 183.0],
["¸", 184.0],
["¹", 185.0],
["º", 186.0],
["»", 187.0],
["¼", 188.0],
["½", 189.0],
["¾", 190.0],
["¿", 191.0],
["À", 192.0],
["Á", 193.0],
["Â", 194.0],
["Ã", 195.0],
["Ä", 196.0],
["Å", 197.0],
["Æ", 198.0],
["Ç", 199.0],
["È", 200.0],
["É", 201.0],
["Ê", 202.0],
["Ë", 203.0],
["Ì", 204.0],
["Í", 205.0],
["Î", 206.0],
["Ï", 207.0],
["Ð", 208.0],
["Ñ", 209.0],
["Ò", 210.0],
["Ó", 211.0],
["Ô", 212.0],
["Õ", 213.0],
["Ö", 214.0],
["×", 215.0],
["Ø", 216.0],
["Ù", 217.0],
["Ú", 218.0],
["Û", 219.0],
["Ü", 220.0],
["Ý", 221.0],
["Þ", 222.0],
["ß", 223.0],
["à", 224.0],
["á", 225.0],
["â", 226.0],
["ã", 227.0],
["ä", 228.0],
["å", 229.0],
["æ", 230.0],
["ç", 231.0],
["è", 232.0],
["é", 233.0],
["ê", 234.0],
["ë", 235.0],
["ì", 236.0],
["í", 237.0],
["î", 238.0],
["ï", 239.0],
["ð", 240.0],
["ñ", 241.0],
["ò", 242.0],
["ó", 243.0],
["ô", 244.0],
["õ", 245.0],
["ö", 246.0],
["÷", 247.0],
["ø", 248.0],
["ù", 249.0],
["ú", 250.0],
["û", 251.0],
["ü", 252.0],
["ý", 253.0],
["þ", 254.0],
["ÿ", 255.0]
]
}
}