Сделал GGUF-версии

#2
by NightFox - opened

Спасибо, любопытная модель.
Сделал GGUF-версии https://huggingface.co/NightFox/saiga_gemma_9b_GGUF/tree/main
Ниже Q5_K_M я делать не стал, модели и так заметно деградируют относительно Q8 (Q6 пока мало тестировал). Для теста попробовал модный-молодёжный IQ4_NL так там она вовсе сходит с ума.
Перед квантованием преобразовал в float32, учитывая что здесь bfloat16.

попробовал модный-молодёжный IQ4_NL так там она вовсе сходит с ума.

А на каком тексте выполнялась калибровка модели для создания матрицы важности?
Тут предлагают использовать хотя бы языковую пару, или же вообще строго второй язык, если модель не будет работать с английским. Что логично: imatrix, откалиброванная только под англоязычный текст, порежет точность весов, связанных с другими языками. Возможно, с хорошей калибровкой удастся даже повысить производительность Q5KM версии, поскольку все квантованные модели сильно теряют в качестве выходного текста на иностранном языке после снижения точности. Поддержка таких модных и молодёжных форматов уже имеется.
https://github.com/ggerganov/llama.cpp/discussions/5263
https://github.com/ggerganov/llama.cpp/discussions/5006

@Erilaz Спасибо большое за информацию! Нет, матриц я не использовал, ранее успел ознакомиться только с оригинальными пуллреквестами поверхностно и матрицы прошли мимо меня, это досадное упущение. Я попробую разобраться в теме получше и переквантовать модели как выпадет время.
Судя по этому графику разница будет больше всего на Q5 и ниже (но и Q6 тоже можно немного улучшить результат):
297839547-522c3ca5-fe40-4679-b046-2e7272e585b0.png

Этого действительно может хватить чтобы модель перестала сходить с ума.

Sign up or log in to comment