GPTQ

by dsv147 - opened Jun 5, 2023

Jun 5, 2023

•

edited Jun 5, 2023

есть ли возможность выложить модели saiga 7b, 13b, 30b в GPTQ 4bit? Хотелось бы их на видеокарте поюзать.
Спасибо за ваши труды и удачи в проектах )

IlyaGusev

Owner Jun 5, 2023

Так они же выложены.
https://huggingface.co/IlyaGusev/saiga_7b_lora_llamacpp/
https://huggingface.co/IlyaGusev/saiga_13b_lora_llamacpp/
https://huggingface.co/IlyaGusev/saiga_30b_lora_llamacpp/

dsv147

Jun 5, 2023

извините ошибся, на работе завал, GPTQ

dsv147 changed discussion title from GGML to GPTQ Jun 5, 2023

IlyaGusev

Owner Jun 5, 2023

Да, теперь понял. А в чём сейчас профит использовать GPTQ после выхода qlora? Казалось бы, пишешь load_in_4bit и ещё пару флагов (типа nf4) при загрузке модели, и оно вполне работает.
Плюс llama.cpp нынче умеет в инференс на GPU.

dsv147

Jun 5, 2023

•

edited Jun 5, 2023

первое я виндовый сисадмин, с питоном не на ты, сам не осилил в квантизация. второе это не для работы, а поиграться дома, поэтому ресурсы ограниченны. третье я хочу 30B модели использовать, а это опять ограничение, по факту сейчас у меня получается использовать KoboldAI 4битный форк, он более менее работает. oobabooga нужно много RAM что бы загрузить 30B 4bit, потому как он грузит сначала в память потом в VRAM. да это можно победить сделав файл подкачки 65+ГБ, но решение так себе. Сейчас попробую llama.cpp за ней я не следил т.к. она на CPU, но опять таки если она сначала в RAM начнет модель загонять, то мне 32ГБ опять не хватит ). Так то есть https://huggingface.co/models?sort=modified&search=30b+4bit и wizard и неплохая MetaIX/GPT4-X-Alpasta-30b-4bit , но очень хочется русскую модель пощупать.
P.s. еслиб у меня вышло квантовать модель, я бы не писал ), я пытался, но моих ограниченных знаний не хватило )
P.S.S. в принципе если у Вас нету возможности не критично (но если будет возможность сделайте пожалуйста, надеюсь многим пригодится), llama.ccp не запустил, разбираться лень, запустил через koboldccp, пошел тестить и еще раз спасибо, Вы по-моему единственный кто занимается русскими моделями, сбер еще, но их модели .... не очень

IlyaGusev

Owner Jun 6, 2023

Да я в общем могу GPTQ приготовить, это совсем не большая проблема. Просто я уже делал подход к этому снаряду, код там мягко говоря так себе. Постараюсь до конца недели выложить.
Llama.cpp не только на CPU, см https://github.com/ggerganov/llama.cpp/discussions/915. Это уже давно в основной ветке и успешно работает.
Модели Сбера не так плохи, вот только их 13B модель всё никак не пройдёт все круги бюрократического ада.

andrewmk

Jun 11, 2023

Здравствуйте, спасибо Вам за этот грандиозный проект, его opensource, развитие и выступление на ODS Data Fest - по пользе для opensource исследователей; "домашних" энтузиастов; а также людей, изучающих вопрос и обучающихся по специальности, кажется, что корпорациям Вас еще догонять и догонять от очень долго до никогда! Как и пользователь выше, я не профессионал и речь идет о домашних условиях. Использую llama.cpp (запускаю как server.exe -c 2000 -ngl 5 -m ggml-model-q4_1.bin - на 1060 вполне работает), но хотел уточнить:

различаются ли модели по качеству (ggml-model-q5_1.bin, ggml-model-q8_0.bin, ggml-model-q3_K.bin) и скорости инференса или это просто разный формат/способ квантования (как я понял из доклада про квантование), т.е. если в моем домашнем ПК 64 Гб Ram и nvme диск (и swap) имеет ли смысл запускать ggml-model-q8_0.bin с частичным offload на 1060, или если это не лучше по качеству генерации, то может быть работает быстрее на CPU/GPU? Из того, что читал по теме, просто запутался, на форумах пишут и спорят, что сами по себе форматы q5_1 и q8_0 и медленнее и хуже по качеству, или иногда по качеству лучше на 5-10% но скорость на 80% и более падает или что q8_0 сильно лучше по скорости, но только для профессиональных GPU со встроенными int8 вычислительными cuda ядрами и большим объемом памяти... буду благодарен, если внесете хотя бы небольшую ясность, ведь Сайга, несмотря на q4_1, в нескольких вариантах по какой-то причине публикуется?
в Вашем примере interact_llamacpp.py указан такой критерий остановки генерации:
```
if token == model.token_eos(): break  
```

а как его указать в llama.cpp server или llama-cpp-python web server, где в API надо отправлять list из стоп-критериев по типу stop: ["\n### Human:"]? Я пробовал [" bot"], но тогда не работает на английском слове both, может быть надо ["bot\n","\nbot"] или что-то еще?

как правильно для использования в llama.cpp server API у текущей версии модели выглядит prompt шаблон одной строчкой?

"prompt": f''' system\nТы — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.\n user\nНапиши десять больших похвал своему создателю.\n bot''',

нужны ли пробелы перед названиями ролей, или их надо в \<s>оборачивать\</s>? Обязательно ли каждый раз подавать system сообщение, если не использовать модель в режиме чата/предыстории? Нужно ли как-то трактовать или использовать SYSTEM_TOKEN = 1788, USER_TOKEN = 1404, BOT_TOKEN = 9225, LINEBREAK_TOKEN = 13 из interact_llamacpp.py если речь идет об использовании модели не в собственном коде, а через llma.cpp API?
- не смог найти в репозитории rulm как можно было бы не финансово помочь проекту (разметкой (попытался исправить мелкие недочеты в переводах в [ru_alpaca_seed_tasks.jsonl](https://github.com/IlyaGusev/rulm/blob/master/self_instruct/data/ru_alpaca_seed_tasks.jsonl), но там быстро другие датасеты появились и качество моего видения по исправлению тоже вещь относительная), обычным несложным кодом (например, могу пример/инструкцию для windows написать как llama.cpp сервер на CPU/GPU запустить и из python requests.post к этому API запросы слать), тестами какими-то, ссылками на открытые датасеты с русским языком [Natasha Corpus](https://github.com/natasha/corus) )?
- Какова судьба llama_13b_ru_turbo_alpaca_lora_llamacpp ? По Вашему выступлению я понял, что она немного другого класса - инструктивная (а Сайга - диалоговая, инструктивная и ведутся работы в сторону ролевой) и нужна для каких-то отличных от Сайги задач, но запустить не получилось, видимо ggml-model-q4_0.bin сделан для старой llama.cpp (до обновления формата) и новой не поддерживается.

Извиняюсь, что получилось много вопросов, но буду рад и кратким и частичным ответам, может быть просто ссылками на литературу/код. Еще раз Спасибо за Ваши усилия и больших успехов!

IlyaGusev

Owner Jun 11, 2023

различаются ли модели по качеству

Да, различаются. Чем больше битрейт, тем меньше потерь, тем лучше качество. См. таблички в README llama.cpp.

а как его указать критерий остановки в llama.cpp server

Никак, только патчить код. У llama.cpp другой токенизатор, у него нет явных строк для bos/eos токенов, поэтому промпт, содержащий эти токены, надо вручную собирать из индексов.

как правильно для использования в llama.cpp server API у текущей версии модели выглядит prompt шаблон одной строчкой?

Никак, по тем же причинам. В общем случае промпт выглядит так: saiga_ooba.txt

как можно было бы не финансово помочь проекту

Измерить модели на разных бенчмарках, выложить чиселки в сравнении с другими моделями.

какова судьба llama_13b_ru_turbo_alpaca_lora_llamacpp

Она устарела и не обновляется, о чём висят warning'и на основных моделях. Сайга во всём её превосходит, нет смысла поддерживать две модели.

andrewmk

Jun 11, 2023

Спасибо за ответы, тщетно и долго пытался разобраться с ними сам, но не получалось.

В saiga_ooba.txt начальный открывающий <s> перед system не потерялся? Будет ли в конце генерации </s> т.е. будет ли хорошим критерием остановки для llama.cpp stop: ["</s>"]?
По поводу измерения, на каком бенчмарке интересно его провести, опубликованные (пока без кода, но вроде бы выложат) измерения Сайги от NLP Core Team Вам не подходят с учётом таблицы DeCLaRe Lab по которой Сайгу косвенно можно сравнить со многими другими моделями и сделать выводы, что 13b модель не на много, но лучшая в мире (а еще компенсировала обычную потерю от LoRA дообучения)? Или уже интереснее на TAPE (сайт бенчмарка) про который было выступление на Data Fest? Не уверен, что у меня получится сделать это без GPU, но, возможно, попробую разобраться и очень интересно какой бенчмарк для Вас в этом вопросе/области авторитетен.
Существуют ли (и много ли) в мире таких моделей как Сайга со специфичным bos/eos в том плане, что имеется ли смысл в issues llama.cpp попросить добавить поддержку указания номеров bos/eos токенов в стоп критериях и prompt server API как некоторого общественно значимого улучшения? Мне будет сложно объяснить в issues в чем дело, но если такие модели существуют и без этого никак, то это было бы полезным улучшением llama.cpp.
Можно ли каким-то словом в promt бороться с тем, что Сайга на многие вопросы выводит ответы, начинающиеся на "Выходные данные:", "Выход:", "Ответ:", "Оценка:"? Это потребляет токены на генерацию, что чувствительно на CPU.

IlyaGusev

Owner Jun 12, 2023

•

edited Jun 12, 2023

В saiga_ooba.txt начальный открывающий <s> перед system не потерялся?`

Большинство фреймворков (в том числе oobabooga из названия файла) автоматически его добавляют. В llama.cpp он всё равно не сработает.

Будет ли в конце генерации </s> т.е. будет ли хорошим критерием остановки для llama.cpp stop: ["</s>"]?

Нет. Ещё раз, у llama.cpp другой токенизатор. </s> он разбивает на несколько токенов, типа ["<", "/s", ">"].

По поводу измерения, на каком бенчмарке...

MMLU, а тем более переведённый, не самый лучший бенчмарк, но это тоже очень интересные цифры. TAPE проблемный, у меня был подход (см. eval_tape). Основная его проблема это от 3 до 7 тысяч примеров на задачу, что делает очень больно на инференсе, а ещё отсутствие публичного валидационного сета. Но на нём тоже хотелось бы замериться. Мне всё ещё хочется полноценный сабмит на RussianSuperGLUE, чтобы прямо отображался в таблице.

Существуют ли (и много ли) в мире таких моделей как Сайга со специфичным bos/eos

У Сайги не специфичный bos/eos, как раз самые стандартные. У Сайги специфичный промпт.
Вот одна из проблем: строчка в convert.py. Если её убрать, то bos и eos станут <s> и </s>, только это не поможет, потому что это не работает в обратную сторону: <s> будет всё ещё разбиваться на 3 токена. Токенизатор llama.cpp фундаментально так работает. system, user и bot тоже имеют другие индексы.
Решение же очень простое: забить и использовать сваренные из индексов промпты.

Можно ли каким-то словом в promt бороться с тем, что Сайга на многие вопросы выводит ответы, начинающиеся на "Выходные данные:", "Выход:", "Ответ:", "Оценка:"? Это потребляет токены на генерацию, что чувствительно на CPU.

Ну например в самом промпте написать "Ответ:".

andrewmk

Jun 12, 2023

Я прежде с такими вещами не сталкивался, но попробовал написать тест для задачи DaNetQA бенчмарка Russian SuperGLUE и на его основе понять общий принцип. Получается, что задача бенчмаркинга по Russian SuperGLUE состоит в написании отдельных программ-тестов для выполнения отдельных видов заданий из бенчмарка, при этом, под каждый вид задания нужно на test (и на обучающей если без обучения работаем) выборке подобрать "самый удачный" промпт и параметры генерации, а потом всё это собрать в сабмит.

Если я правильно понимаю, когда NLP Core Team опубликуют код для MMLU, из него можно будет взять готовую основу (если не код, то хотя бы промпты) для пересекающихся/схожих заданий.
Касательно DaNetQA. Этап обучения получается не нужен, а дальше нужно в Zero-shot? Нужно ли в Сайгу подавать Контекст из теста (или надо пробовать с ним и без)? Считается ли честным при прохождении отдельного теста бенчмарка варьировать:
- промпт,
- параметры генерации,
- подачу контекста (то подаем, то нет),
- Zero-shot/Few-shot режим,
  исходя из конкретного sampl'a теста или все шаблоны/параметры модели должны быть фиксированы на весь проход по тесту?
- Как, например, относится к таким случаям, когда модель всё знает и ответила правильно, но вопрос был так поставлен, что в нем надо поменять "да" на "нет" (т.е. подковырка в постановке формулировки вопроса, а не в фактах и знаниях для ответа на него - я бы мог попытаться обойти такие трюки поиском в вопросе слова " ли " (и наверное " бы ") и как-то менять промпт - но без опыта бенчмаркинга, честно/нормально ли так делать в бенчмарках не знаю, думаю "дизельгейт" никто не хотел бы получить, тем более неумышленно, ведь на мой взгляд ситуация спорная и "каков вопрос" - "таков ответ" к ней было бы применимо):

*Вопрос из теста: Действительно ли в ссср не было адвокатов?
*Контекст из теста: Семён Львович Ария — советский и российский юрист, один из крупнейших советских адвокатов, Заслуженный юрист РСФСР. Родился в еврейской семье , детство провёл на Украине в г. Харькове. После окончания средней школы в течение года учился на мостовом факультете Новосибирского института военных инженеров транспорта. В начале Великой Отечественной войны был призван в Красную Армию в Харькове, окончив курсы 19-го учебного танкового полка в Нижнем Тагиле, стал механиком-водителем танка, затем — разведчиком дивизиона гвардейских минометов . Участвовал в боевых действиях на Северном Кавказе, Кубани, Украине, в Болгарии, Венгрии, Австрии, старший сержант.
*Правильный ответ из теста: False
Ответ модели: Да, в СССР существовали адвокаты. Однако, они работали под строгими правилами и ограниче
!!! Модель ошиблась

- Вот получившийся код для DaNetQA теста в копилку тестов по Russian SuperGLUE, если пригодится. Основные выработанные при его написании идеи: 1) Писать "Ответь одним словом," - чтобы да/нет отвечала в начале предложения 2) ограничивать max_new_tokens маленьким числом, так как нужны только первые токены да/нет  - чтобы проход теста был быстрее (в моем случае на CPU чувствительно, еще пару часов тест будет проходить, как законичиться цифры напишу ) 3) парсить/искать да/нет в bool

from llama_cpp import Llama

SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
SYSTEM_TOKEN = 1788
USER_TOKEN = 1404
BOT_TOKEN = 9225
LINEBREAK_TOKEN = 13

ROLE_TOKENS = {
"user": USER_TOKEN,
"bot": BOT_TOKEN,
"system": SYSTEM_TOKEN
}

def get_message_tokens(model, role, content):
message_tokens = model.tokenize(content.encode("utf-8"))
message_tokens.insert(1, ROLE_TOKENS[role])
message_tokens.insert(2, LINEBREAK_TOKEN)
message_tokens.append(model.token_eos())
return message_tokens

def get_system_tokens(model):
system_message = {"role": "system", "content": SYSTEM_PROMPT}
return get_message_tokens(model, **system_message)

def user(message, history, system_prompt):
new_history = history + [[message, None]]
return "", new_history

def inference(user_message, max_new_tokens=None):
tokens = get_system_tokens(model)[:]
message_tokens = get_message_tokens(model=model, role="user", content=user_message)
role_tokens = [model.token_bos(), BOT_TOKEN, LINEBREAK_TOKEN]
tokens += message_tokens + role_tokens
generator = model.generate(
tokens,
top_k=top_k,
top_p=top_p,
temp=temperature,
repeat_penalty=repeat_penalty
)
result_tokens = []
for i, token in enumerate(generator):
if token == model.token_eos() or (max_new_tokens is not None and i >= max_new_tokens):
break
#token_str = model.detokenize([token]).decode("utf-8", errors="ignore")
#print(token_str, end="", flush=True)
result_tokens.append(token)
return model.detokenize(result_tokens).decode("utf-8", errors="ignore")

model_path = 'F:/RussianSuperGLUE/ggml-model-q4_1.bin'
n_ctx=2000
top_k=30
top_p=0.9
temperature=0.1
repeat_penalty=1.1

model = Llama(model_path=model_path, n_ctx=n_ctx, n_parts=1, n_gpu_layers=10, seed=1337, f16_kv=True, logits_all=False, vocab_only=False, use_mmap=False, use_mlock=True, embedding=False, n_threads=6, n_batch=512, last_n_tokens_size=64, lora_base=None, lora_path=None, verbose=False)
system_tokens = get_system_tokens(model)
#tokens = system_tokens
#model.eval(tokens)

import json
import codecs
import requests
from sklearn.metrics import accuracy_score

""" Yes/no Question Answering Dataset for the Russian """
""" https://russiansuperglue.com/ru/tasks/task_info/DaNetQA """
""" https://russiansuperglue.com/ru/tasks/download/DaNetQA """
y_true = []
y_pred = []
for line in codecs.open("F:/RussianSuperGLUE/DaNetQA/val.jsonl","r","utf-8"):
""" загрузка вопроса из бенчмарка """
test = json.loads(line)
#print(test.keys())
print(f'''*Вопрос из теста: {test["question"]}''')
print(f'''*Контекст из теста: {test["passage"]}''')
print(f'''*Правильный ответ из теста: {test["label"]}''')
y_true.append(bool(test["label"]))

  """ получение ответа из модели """
  user_message = f'''Ответь одним словом, на вопрос: {test["question"]}'''
  model_responce = inference(user_message, 30)
  print(f'''Ответ модели: {model_responce}''')

  """ преобразование ответа модели в формат, сравнимый с бенчмарком """
  result = None
  if model_responce.startswith("Да"):
      result = True
  elif model_responce.startswith("Нет"):
      result = False
  else:
      print("ERROR! Не удалось найти Да/Нет в ответе модели и преобразовать его в bool")
  y_pred.append(result)
  if (result != bool(test["label"])): print("!!! Модель ошиблась")
  print("-"*20)

accuracy_score(y_true, y_pred)

andrewmk

Jun 12, 2023

Закончились измерения на текущей 7b ggml-model-q4_1.bin модели на валидационном "val.jsonl" наборе DaNetQA бенчмарка Russian SuperGLUE.

Хотел уточнить, если у llama.cpp другой токенизатор, то получается, что запускать Сайгу экзешником llama.cpp server.exe API нельзя? Или можно, просто только </s> портиться будет, а не весь вход/выход будет по другому токенизироваться? Я думал, что q4_1 форматы моделей включают в себя токенизатор и веса в одном файле и больших проблем с llama.cpp не наблюдал, кроме иногда очень странного поведения и зацикливаний "bot bot bot bot... до заданного предела n_predict".
В приведенный ранее код мне пришлось добавить замену None на False, чтобы посчитать acccuracy (пропустить тестовые примеры, для которых из модели не удалось получить ответ):
```
for i in range(len(y_pred)):
  if y_pred[i] == None:
      print(i)
      y_pred[i]=False
accuracy_score(y_true, y_pred)
```
а как обычно принято делать, если на какой-то вопрос теста не удалось добиться от модели никакого ответа?
Результат без указания контекста (1 замена None на False): 0.5858708891595615
Результат с указанием контекста затравкой f'''Контекст: {test["passage"]}\n\nИспользуя контекст, ответь одним словом на вопрос: {test["question"]}''' (8 замен None на False): 0.6918392204628502
Заметил у Сайги общую склонность, что если в контексте перечисляются несколько значений одного и того же факта: Председатель шахматного клуба Иван Иванович. С 2018 года председатель шахматного клуба Николай Николаевич. С 2020 года председатель шахматного клуба Мария Ивановна. , то на вопрос Кто является председателем шахматного клуба? она всегда выдает первое встретившиеся Иван Иванович - есть ли типовой промпт способ с этим бороться?
Схоже с предыдущим, обнаружил вид "хитрых" вопросов - когда в контексте присутствует сразу несколько противоречащих по датам фактов (в 2013 разрешили, но не вступило в силу; потом в 2014 перенесли вступление в силу до 2017; а потом в 2016 другим указом запретили, но разрешение от 2013г. в 2017 г. всё равно вступило в силу, просто с запретительной поправкой от 2016 г. - т.е. как я понял есть и действует указ в котором так и написано, что разрешено, но к нему еще есть поправка...), вот пример из теста:

*Вопрос из теста: Разрешено ли в россии гмо?
*Контекст из теста: С 1 июля 2014 г. вступает в силу Постановление Правительства Российской Федерации от 23 сентября 2013 г. № 839 «О государственной регистрации генно-инженерно-модифицированных организмов, предназначенных для выпуска в окружающую среду, а также продукции, полученной с применением таких организмов или содержащей такие организмы», которым разрешено сеять генно-модифицированные зерновые. В июне 2014 года Правительство РФ приняло постановление № 548, которое предусматривает перенос срока вступления в силу постановления № 839 на три года, то есть на 1 июля 2017 года. 24 июня 2016 года Государственная Дума РФ приняла в третьем чтении федеральный закон «О внесении изменений в отдельные законодательные акты РФ в части совершенствования государственного регулирования в области генно-инженерной деятельности». Закон запрещает ввоз на территорию РФ и использование семян растений, генетическая программа которых изменена с использованием методов генной инженерии и которые содержат генно-инженерный материал, внесение которого не может являться результатом природных процессов.
*Правильный ответ из теста: False
Ответ модели: Да, разрешено сеять генно-модифицированные зерновые в России. Постановление Пра
!!! Модель ошиблась

- В [leaderboard](https://russiansuperglue.com/ru/leaderboard/2) такие результаты примерно после 15 места, но ведь это лишь обывательский baseline (не каждый водитель за рулем Ferrari, поставит рекорд Нюрбургринга) самой маленькой модели без подбора промпта и параметров модели, да и 0,915 у HUMAN говорит о том, что не на все можно сходу ответить правильно. На Ваш взгляд, без файнтюнинга и подбора многоуровневых промтов конкретно под этот тест, можно ли вырваться в первую десятку? А ведь с разной температурой или даже просто при проведении повторного теста результаты могут различаться в силу "случайной составляющей генерации",  тогда как правильнее итоговый сабмит делать? Можно ли, например, раз 5-7 (может быть и с разными параметрами) прогнать тест и сделать итоговые ответы методом большинства голосов, будет ли так принято/честно/нормально?

Спасибо за обратную связь, надеюсь принёс немного пользы.

IlyaGusev

Owner Jun 12, 2023

На будущее - не надо столько писать в чужих issue, открыл форум здесь: https://github.com/IlyaGusev/rulm/discussions

Получается, что задача бенчмаркинга по Russian SuperGLUE состоит в написании отдельных программ-тестов для выполнения отдельных видов заданий из бенчмарка, при этом, под каждый вид задания нужно на test (и на обучающей если без обучения работаем) выборке подобрать "самый удачный" промпт и параметры генерации, а потом всё это собрать в сабмит.

Ну да, а ещё выложить код и промпты.

Нужно ли в Сайгу подавать Контекст из теста (или надо пробовать с ним и без)?

Нужно, в этом суть бенчмарка. Это же не open QA.

Считается ли честным при прохождении отдельного теста бенчмарка варьировать:

Всё да. Только нужно указывать, что именно было сделано. Код лучше сразу в репозиторий заливать через pull request. Заодно там же и ревью сделаю. Иначе я его скопирую и сам залью, а авторство хотелось бы сохранить.

получается, что запускать Сайгу экзешником llama.cpp server.exe API нельзя?

Получается так. Она не то чтобы не будет работать, но просто качество просядет.

а как обычно принято делать, если на какой-то вопрос теста не удалось добиться от модели никакого ответа?

Да вот ровно так же, ставить одну из меток.

0.6918392204628502

Вообще достойно, у меня на старых версиях хуже получалось.

есть ли типовой промпт способ с этим бороться?

Нет.

На Ваш взгляд, без файнтюнинга и подбора многоуровневых промтов конкретно под этот тест, можно ли вырваться в первую десятку?

Да это отличный результат для 7b zero-shot. Почти все модели там дообучались на обучающей выборке. В целом до 0.75 должно быть можно добить.

А ведь с разной температурой или даже просто при проведении повторного теста результаты могут различаться в силу "случайной составляющей генерации", тогда как правильнее итоговый сабмит делать? Можно ли, например, раз 5-7 (может быть и с разными параметрами) прогнать тест и сделать итоговые ответы методом большинства голосов, будет ли так принято/честно/нормально?

Да, но только с указанием того, что происходило.

надеюсь принёс немного пользы

Да, вполне.

andrewmk

Jun 12, 2023

Понятно, извините, что много написал - не было опыта в таких вещах.
Код на 3/4 из Вашего interact_llamacpp.py сделан, копируйте куда сочтёте необходимым без всякого авторства.
Метрика ~0.7 на "val.jsonl" получена (надеюсь она воспроизводима, а не везение), чтобы официальная цифра была надо на test.json померять и отослать в Russian SuperGLUE - там может и другая цифра выйти. На сайте бенчмарка надо регистрироваться и неясно можно ли отдельно слать один тест - в любом случае я этого никак не планировал делать, только передать Вам, что получилось. Надеюсь в вариантах 13b и 30b в q8_0 моделях цифра будет еще лучше, я на своем CPU наверное не смогу померять, по ощущениям 30b суток двое считался бы... лучше попробую другие типы задач освоить и написать, если, конечно, получатся какие-то результаты.
Еще раз Спасибо за Сайгу: адаптацию, доступность и популяризацию современных технологий, в том числе на ODS Data Fest ; поддержку, а также этот интересный, новый для меня опыт бенчмаркинга - надеюсь, когда соберется весь сабмит Сайга займет свое почетное место даже без файнтюнинга, хотя, как по мне, Ваш профессиональный опыт и авторитет, труд и многочисленные общественные достижения (Telegram Contest, статьи на Habr, github ...) итак уникальны, выше всяких похвал и просто вне конкуренции без каких-либо частных метрик и названий версий бенчмарков!

andrewmk

Jun 14, 2023

Досчитались новые данные (условия те же: "val.jsonl" из DaNetQA):

0.7978075517661388 accuracy набрала saiga_30b q4_1
0.8416565164433617 accuracy набрала предыдущая версия saiga_30b q4_1

30b модели не так стабильны при ответе как 7b и могут перед ответом вставлять пробел или \n, а также использовать заглавные/строчные буквы (Да, да), поэтому пришлось доработать преобразование ответа моделей в bool:

    """ преобразование ответа модели в формат, сравнимый с бенчмарком """
    """ Учтены: непечатные символы перед ответом модели; Фразы "Ответ:" и т.п. перед ответом; вопрос - ответы отличные, но обозначающие Да: Верно ли? - верно, Правда ли? - правда, Может ли? - может"""
    result = None
    if bool(re.match(r'''^[^\w]*(Выходные данные|Выход|Ответ|Оценка)?[^\w]*(да|верно|правда|может)''', model_responce, re.IGNORECASE | re.MULTILINE | re.DOTALL)):
        result = True
    elif bool(re.match(r'''^[^\w]*(Выходные данные|Выход|Ответ|Оценка)?[^\w]*нет''', model_responce, re.IGNORECASE | re.MULTILINE | re.DOTALL)):
        result = False
    else:
        print("ERROR! Не удалось найти Да/Нет в ответе модели и преобразовать его в bool")

Пропробовал пройти тест Textual Entailment Recognition for Russian - TERRa, на его "val.jsonl" сходу получилось 0.52 - продолжу поиск промптов, на данный момент пробовал такие:

    user_message = f'''Контекст: {test["premise"]}\nГипотеза: {test["hypothesis"]}\n\nОтветь одним словом на вопрос: может ли гипотеза следовать из контекста?'''
    user_message = f'''Контекст: {test["premise"]}\n\nГипотеза: {test["hypothesis"]}\n\nИспользуя контекст, ответь одним словом на вопрос: из него следует гипотеза?'''
    user_message = f'''Контекст: {test["premise"]}\n\nИспользуя контекст, ответь одним словом на вопрос: из него следует, что {test["hypothesis"]}?'''

Ответы модели для считывания entailment/not_entailment стабильны, но она склонна всегда отвечать Да, как будто часто "не видит" гипотезу. Считывание ответа реализовано так:

    """ преобразование ответа модели в формат, сравнимый с бенчмарком """
    result = None
    if bool(re.match(r'''^[^\w]*(Выходные данные|Выход|Ответ|Оценка)?[^\w]*(да|верно|правда|может)''', model_responce, re.IGNORECASE | re.MULTILINE | re.DOTALL)):
        result = "entailment"
    elif bool(re.match(r'''^[^\w]*(Выходные данные|Выход|Ответ|Оценка)?[^\w]*нет''', model_responce, re.IGNORECASE | re.MULTILINE | re.DOTALL)):
        result = "not_entailment"
    else:
        print("ERROR! Не удалось найти Да/Нет в ответе модели и преобразовать его в entailment/not_entailment ")

andrewmk

Jun 15, 2023

This comment has been hidden

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

Your need to confirm your account before you can post a new comment.

· Sign up or log in to comment