Галлюцинации в ответе модели
Всем доброго времени суток! Для инференса использую класс LlamaCPP из llama-index. При использовании весов последней, 6-ой версии получаю поведение как на скрине. Сначала идет необходимый ответ в нужном формате, а потом модель начинает либо генерировать ненужный код, либо повторять промпт, либо генерировать какой-нибудь мусор пока не кончится квота на токены. Почему это происходит и как такое можно победить?
PS: При использовании saiga_mistral_7b_gguf такой проблемы нет
Это происходит, потому что формат промпта не применяется. complete - это для базовых моделей, для любых моделей с форматирование промпта надо использовать chat: https://github.com/run-llama/llama_index/blob/379503696e59d8b15befca7b9b21e1675db17c50/llama-index-legacy/llama_index/legacy/llms/llama_cpp.py#L210C9-L210C13