Text Generation
GGUF
Russian

TOKEN константы

#3
by Specki - opened

внутри файла interact_mistral_llamacpp.py есть константы токенов:

SYSTEM_TOKEN = 1587
USER_TOKEN = 2188
BOT_TOKEN = 12435
LINEBREAK_TOKEN = 13

Можете объяснить почему именно эти числа тут используются?

image.png

Ну 13 это код новой строки в ansi кодировке например. А вот остальные это уже не узнаю.

На скриншоте написано же, это ID токенов "system", "user" и "bot".

@saintbyte не совсем верно, 13 (0xD) это "возврат каретки", а ~"новая строка" это 10 (0xA)
Как легко запомнить? В Windows используется \r\n, это DA (как русское слово ДА)

@saintbyte не совсем верно, 13 (0xD) это "возврат каретки", а ~"новая строка" это 10 (0xA)
Как легко запомнить? В Windows используется \r\n, это DA (как русское слово ДА)
Это меня линукс доканал - там везде \n =) У меня вообще несколько лет только как прошло "истиннное линуксоидство"

Непонятно, как использовать эти токены с вашей моделью в text-generation-webui:
image.png

Для GGUF - никак

IlyaGusev changed discussion status to closed

Sign up or log in to comment