результаты русскоязычных бенчмарков

#6
by VlSav - opened

нет планов протестировать/выложить результаты бенчмарков тут например https://mera.a-ai.ru/ru/leaderboard ?
или какие-то другие общедоступные русскоязычные бенчмарки? у меня получались результаты близкие к исходной llama3 в тотале, да и с suzume. Непонятно как в итоге объективно оценить, что дает дополнительный тюнинг :(

Так в карточке модели есть результаты на SbS. А MERA бессмысленна, она не форматирует промпт, а модель в таком режиме вообще любую чушь может выдавать.

а разве там требуется какое-то дополнительное форматирование промпта? мне казалось там transformes по указанному в tokenizer_config.json
"chat_template": "{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}",
должен сам справляться?
SbS тоже полезен, но хотелось бы еще какую-то более общую метрику. Не сказать, чтобы в восторге от MERA, но что есть и локально можно тест провести, правда для оценки все равно отправлять...
Кстати ruMMLU верна в какой-то степени коррелирует с позицией в SbS. Было бы интересно в SbS с оригинальной LLama3 тоже сравнить.
image.png

Должен, только в Мере он не используется, потому что код старее, чем chat_template. См. https://github.com/ai-forever/MERA/issues/4

эх, печально. можно бы и пропатчить, но такая примитивщина резко снижает доверие и в целом к тесту...
alpaca_eval локально не потяну, с llama-70b, с chatgpt так тем более.

хотя все не так однозначно, попробовал с пропатченой на использование chat_template версией. На каких-то тестах резкое ухудшение, на каких-то небольшая деградация, а где-то очень сильна.

image.png

VlSav changed discussion status to closed

Sign up or log in to comment