Guide
Привет, у тебя есть какой нить гайд где есть объяснения для новичков как натренировать свою LM модель?
Разве что Колаб в карточке этой модели.
Привет! У меня не получается конвертировать модель в GGUF (llama.cpp convert.py), после конвертации и квантования модель не загружается. Может уже есть готовый GGUF для этой модели?
Ну так у гемма вроде другая архетиктура...
И это не ллама
Разве что Колаб в карточке этой модели.
Давай, хотяб погляжу как это выглядит.
llama.cpp поддержали gemma - и "родная" квантованная модель запускается и работает
llama.cpp поддержали gemma - и "родная" квантованная модель запускается и работает
Ну сделанная от гугла да, а вот другие не очень... там много вопросов по квантованию и конвертации этой модели.
https://huggingface.co/google/gemma-7b-it/discussions/11
https://huggingface.co/google/gemma-7b-it/discussions/38
Скорее всего нужно немного подождать...
решил проблему - надо использовать convert-hf-to-gguf.py - конвертировал правильно и модель запустилась после квантования. convert.py преобразует неправильно.
Запустилась - сейчас посмотрю как работает
python /llama.cpp/convert-hf-to-gguf.py --outfile /llm_models/saiga_gemma_9b_gguf/7b/saiga-gemma-9b-f16.gguf --outtype f16 /llm_models/saiga_gemma_9b
/llama.cpp/quantize /llm_models/saiga_gemma_9b_gguf/7b/saiga-gemma-9b-f16.gguf /llm_models/saiga_gemma_9b_gguf/7b/saiga-gemma-9b.q4_k_m.gguf q4_k_m
Модель запустилась и запрос обработала.
Хотя, вопросы, конечно, есть.
Согласен, нужно немного подождать.
Спасибо за поддержку.
@rehbkjd
,
@ASIDS
--outtype
лучше f32
, т.к. тут bfloat16
и при преобразовании в обычный float16
будут потери (и они есть ощутимые, я уже успел сравнить с f16-версией ранее). Для преобразования потребуется немного больше 32ГБ памяти, мне пришлось врубать файл подкачки для этого.
Вот готовые модели https://huggingface.co/NightFox/saiga_gemma_9b_GGUF/tree/main
Ниже Q5_K_M я делать не стал, модели и так заметно деградируют относительно Q8 (Q6 пока мало тестировал). На IQ4_NL она вовсе сходит с ума.
Модель специфичная, например на генерации кода достаточно придирчива к промпту, легко может уйти в цикл бреда, в отличие от deepseek-coder.
Пример проблемного промпта: Cгенерируй мне на JS вывод из массива где 10 эмодзи, какой-то случайный
(можно задать и 3 это не поможет в такой формулировке).
Зато она довольно неплохо объясняет что-то, делает выжимку и т.п., но нужно правильно готовить под это промпт, оборачивать текст специально, иначе сходит с ума.
--outtype
лучшеf32
, т.к. тутbfloat16
и при преобразовании в обычныйfloat16
будут потери (и они есть ощутимые, я уже успел сравнить с f16-версией ранее). Для преобразования потребуется Спасиб!
llama-cpp-python с ней , кто пробовал - подскажите какой чат формат выбирать?