Ошибка в претокенизации

#1
by gregkseno - opened

Буквально недавно выяснилось, что для всех моделей на основе BPE llama.cpp применял дефолтную претокенизацию от GPT-2.
И, вроде, как я понял, необходимо переконвертировать .gguf файлы, чтобы все хорошо работало. Иначе новая версия (0.2.68) llama-cpp-python выдает следующее предупреждение:

llm_load_vocab: missing pre-tokenizer type, using: 'default'
llm_load_vocab:                                             
llm_load_vocab: ************************************        
llm_load_vocab: GENERATION QUALITY WILL BE DEGRADED!        
llm_load_vocab: CONSIDER REGENERATING THE MODEL             
llm_load_vocab: ************************************

Edit:
Вот метод, который я использовал, чтобы конвертировать модель:

  1. Скачиваем модель с помощью python скрипта:
from huggingface_hub import snapshot_download

model_id="IlyaGusev/saiga_llama3_8b"
snapshot_download(repo_id=model_id, local_dir="llama_v3",
                  local_dir_use_symlinks=False, revision="main")
  1. Клонируем репозиторий llama.cpp
  2. Устанавливаем требования pip install -r llama.cpp/requirements.txt
  3. Конвертируем скачанную модель в .gguf файл следующей командой:
python -m convert-hf-to-gguf /path/to/llama_dir \
--outfile saiga_llama3_8b_gguf \
--outtype f16 --use-temp-file
  1. Квантуем модель в необходимый формат, например Q4_K:
./quantize /path/to/llama_dir/saiga_llama3_8b.gguf /path/to/llama_dir/saiga_llama3_8b_q4_K.gguf Q4_K

здравствуйте, пытаюсь конвертировать модель в gguf, как здесь написано. конвертация прошла, удалось загрузить модельку в олламу, но модель на все запросы отвечает: "3333333333333333333333333333333". Подскажите пожалуйста как это можно поправить?

Sign up or log in to comment