IlyaGusev/saiga_llama3_8b_gguf · Ошибка в претокенизации

about 1 month ago

•

Буквально недавно выяснилось, что для всех моделей на основе BPE llama.cpp применял дефолтную претокенизацию от GPT-2.
И, вроде, как я понял, необходимо переконвертировать .gguf файлы, чтобы все хорошо работало. Иначе новая версия (0.2.68) llama-cpp-python выдает следующее предупреждение:

llm_load_vocab: missing pre-tokenizer type, using: 'default'
llm_load_vocab:                                             
llm_load_vocab: ************************************        
llm_load_vocab: GENERATION QUALITY WILL BE DEGRADED!        
llm_load_vocab: CONSIDER REGENERATING THE MODEL             
llm_load_vocab: ************************************

Edit:
Вот метод, который я использовал, чтобы конвертировать модель:

Скачиваем модель с помощью python скрипта:

from huggingface_hub import snapshot_download

model_id="IlyaGusev/saiga_llama3_8b"
snapshot_download(repo_id=model_id, local_dir="llama_v3",
                  local_dir_use_symlinks=False, revision="main")

Клонируем репозиторий llama.cpp
Устанавливаем требования pip install -r llama.cpp/requirements.txt
Конвертируем скачанную модель в .gguf файл следующей командой:

python -m convert-hf-to-gguf /path/to/llama_dir \
--outfile saiga_llama3_8b_gguf \
--outtype f16 --use-temp-file

Квантуем модель в необходимый формат, например Q4_K:

./quantize /path/to/llama_dir/saiga_llama3_8b.gguf /path/to/llama_dir/saiga_llama3_8b_q4_K.gguf Q4_K

VlSav

14 days ago

или так https://huggingface.co/spaces/ggml-org/gguf-my-repo
получаем https://huggingface.co/VlSav/saiga_llama3_8b-Q6_K-GGUF

ultamaster

5 days ago

здравствуйте, пытаюсь конвертировать модель в gguf, как здесь написано. конвертация прошла, удалось загрузить модельку в олламу, но модель на все запросы отвечает: "3333333333333333333333333333333". Подскажите пожалуйста как это можно поправить?