Сделал GGUF-версии

by NightFox - opened Feb 28

Feb 28

Спасибо, любопытная модель.
Сделал GGUF-версии https://huggingface.co/NightFox/saiga_gemma_9b_GGUF/tree/main
Ниже Q5_K_M я делать не стал, модели и так заметно деградируют относительно Q8 (Q6 пока мало тестировал). Для теста попробовал модный-молодёжный IQ4_NL так там она вовсе сходит с ума.
Перед квантованием преобразовал в float32, учитывая что здесь bfloat16.

Erilaz

Mar 6

•

edited Mar 8

попробовал модный-молодёжный IQ4_NL так там она вовсе сходит с ума.

А на каком тексте выполнялась калибровка модели для создания матрицы важности?
Тут предлагают использовать хотя бы языковую пару, или же вообще строго второй язык, если модель не будет работать с английским. Что логично: imatrix, откалиброванная только под англоязычный текст, порежет точность весов, связанных с другими языками. Возможно, с хорошей калибровкой удастся даже повысить производительность Q5KM версии, поскольку все квантованные модели сильно теряют в качестве выходного текста на иностранном языке после снижения точности. Поддержка таких модных и молодёжных форматов уже имеется.
https://github.com/ggerganov/llama.cpp/discussions/5263
https://github.com/ggerganov/llama.cpp/discussions/5006

NightFox

Mar 6

•

edited Mar 6

@Erilaz Спасибо большое за информацию! Нет, матриц я не использовал, ранее успел ознакомиться только с оригинальными пуллреквестами поверхностно и матрицы прошли мимо меня, это досадное упущение. Я попробую разобраться в теме получше и переквантовать модели как выпадет время.
Судя по этому графику разница будет больше всего на Q5 и ниже (но и Q6 тоже можно немного улучшить результат):

Этого действительно может хватить чтобы модель перестала сходить с ума.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment