Text Generation
Transformers
Safetensors
Russian
gemma
conversational
Inference Endpoints
text-generation-inference

Guide

#1
by ASIDS - opened

Привет, у тебя есть какой нить гайд где есть объяснения для новичков как натренировать свою LM модель?

Разве что Колаб в карточке этой модели.

Привет! У меня не получается конвертировать модель в GGUF (llama.cpp convert.py), после конвертации и квантования модель не загружается. Может уже есть готовый GGUF для этой модели?

Ну так у гемма вроде другая архетиктура...
И это не ллама

Разве что Колаб в карточке этой модели.

Давай, хотяб погляжу как это выглядит.

llama.cpp поддержали gemma - и "родная" квантованная модель запускается и работает

llama.cpp поддержали gemma - и "родная" квантованная модель запускается и работает

Ну сделанная от гугла да, а вот другие не очень... там много вопросов по квантованию и конвертации этой модели.
https://huggingface.co/google/gemma-7b-it/discussions/11
https://huggingface.co/google/gemma-7b-it/discussions/38

Скорее всего нужно немного подождать...

решил проблему - надо использовать convert-hf-to-gguf.py - конвертировал правильно и модель запустилась после квантования. convert.py преобразует неправильно.
Запустилась - сейчас посмотрю как работает

python /llama.cpp/convert-hf-to-gguf.py --outfile /llm_models/saiga_gemma_9b_gguf/7b/saiga-gemma-9b-f16.gguf --outtype f16 /llm_models/saiga_gemma_9b
/llama.cpp/quantize /llm_models/saiga_gemma_9b_gguf/7b/saiga-gemma-9b-f16.gguf /llm_models/saiga_gemma_9b_gguf/7b/saiga-gemma-9b.q4_k_m.gguf q4_k_m

Модель запустилась и запрос обработала.
Хотя, вопросы, конечно, есть.
Согласен, нужно немного подождать.
Спасибо за поддержку.

@rehbkjd , @ASIDS
--outtype лучше f32, т.к. тут bfloat16 и при преобразовании в обычный float16 будут потери (и они есть ощутимые, я уже успел сравнить с f16-версией ранее). Для преобразования потребуется немного больше 32ГБ памяти, мне пришлось врубать файл подкачки для этого.
Вот готовые модели https://huggingface.co/NightFox/saiga_gemma_9b_GGUF/tree/main
Ниже Q5_K_M я делать не стал, модели и так заметно деградируют относительно Q8 (Q6 пока мало тестировал). На IQ4_NL она вовсе сходит с ума.

Модель специфичная, например на генерации кода достаточно придирчива к промпту, легко может уйти в цикл бреда, в отличие от deepseek-coder.
Пример проблемного промпта: Cгенерируй мне на JS вывод из массива где 10 эмодзи, какой-то случайный (можно задать и 3 это не поможет в такой формулировке).
Зато она довольно неплохо объясняет что-то, делает выжимку и т.п., но нужно правильно готовить под это промпт, оборачивать текст специально, иначе сходит с ума.

--outtype лучше f32, т.к. тут bfloat16 и при преобразовании в обычный float16 будут потери (и они есть ощутимые, я уже успел сравнить с f16-версией ранее). Для преобразования потребуется Спасиб!
llama-cpp-python с ней , кто пробовал - подскажите какой чат формат выбирать?

Sign up or log in to comment