Русскоговорящие модели
Приветствую. Тебе встречались более размерные модели, адекватно воспринимающие русский язык?
От себя могу добавить:
- Llava 1.5 русский понимает, выдает неплохие ответы. Что интересно, версия 1.6 на 34B на русском общается гораздо хуже. Обе модели попробовать можно тут:
https://huggingface.co/spaces/badayvedat/LLaVA
https://llava.hliu.cc - Fimbulvetr-11B, Moistral-11B русский понимает, даже выдает неплохие связные ответы.
- Llama-3 (70B, 8B) должна работать с русским, качество не тестировал.
- Mixtral 8x7B понимает, но ответы оставляют желать лучшего. Есть его файнтюн от openbuddy, но он тоже особо по качеству не отличается.
- Saiga, Vikhr как то не особо зашли. Сейчас доступна saiga_llama3_8b, можно попробовать поиграться. Может и на 70B будет модель.
- Слышал, что WizardLM-2-8x22B умеет в мнгоязычность, но русский не тестировал.
Если тебе встречалилсь достойные модели, буду рад узнать.
Привет! Спасибо за интересный вопрос.
Я тестирую модельки в основном локально на ПК (32 ОЗУ + 6 VRAM c 1408 CUDA), как вручную (в LM STUDIO играясь с параметрами и оцениваю длительные диалоги до 8к контекста) так и автоматически своим скриптом по определенным кретериям куда входит понимание и ответ на литаратурном русском и некоторая оценка общих областей знаний, и вот какими наблюдениями могу поделиться:
- Llava модельки на чистом русском не очень, а вот те кастомные модельки смержены с llava и vision адаптером (к примеру Lewdiculous/Nyanade_Stunna-Maid-7B-v0.2-GGUF-IQ-Imatrix) ведут себя вполне нормально:
https://huggingface.co/Lewdiculous/Nyanade_Stunna-Maid-7B-v0.2-GGUF-IQ-Imatrix
С появлением Llama-3 моделек игра сильно изменилась, если раньше только топовые версии умели "что-то" на адекватном русском, то теперь 30-40% L3 моделек воспринимают и сносно пишут на нативном русском с легкими глюками. Из последних тестируемых руками понравились (NikolayKozloff/SFR-SFT-LLaMA-3-8B-R-Q8_0-GGUF (привет @NikolayKozloff ),
Lewdiculous/Poppy_Porpoise-0.72-L3-8B-GGUF-IQ-Imatrix, Lewdiculous/L3-TheSpice-8b-v0.1.3-GGUF-IQ-Imatrix)L3 70B тестировать накладно, тоже еще не занимался таким исследованием, а вот 8B и 4x8B показывают очень хорошие результаты иногда, но могут сильно деградировать на длинных контекстах, тут еще не понял от чего это в основном зависит уровень качества.
В основном интересно ведут себя MoE (микс экспертов) модельки, в плане разнообразия и качества ответов, изучаю по возможности эти свойства.
Saiga_llama3_8b тестировал руками плотно что бы сравнить, однозначно хорошая моделька, но в текущем списке фаворитов её у меня нет, она слегка не подошла моим ожиданиям уровня качества ответов на длинных контекстах, есть варианты L3-8B способные к большему
WizardLM-2 уже качаю и проверю, правда 7B и без 8x, кажется я её тестил но не помню что-то получалось или нет.
Резюмирую как я вижу текущую картину с поддержкой мультиязычности и качества ответов LLM моделек:
Кажется можно тестить L3-8B подыскивая те которые на ожидаемо качественных дата-сетах до-обучены, найдя интересные можно подумать над тем как поднять 70B или даже 110B модельки на платной мощности что бы проверить наверняка.
P.S. 7B модельки всё еще встречаются отвечающими некоторым критериям качетва, но ощутимо будущее за теми моделями которые научатся на уровне chatgpt отвечать, параллельно я тестирую chatgpt на плюс аккаунте и понимаю разницу, в частности как распознаёт скрины чат и как его (медленно и не эффективно) распознают и описывают открытые модельки.
Можно продолжить этот диалог для обмена опытом, это было бы полезно! 🤗
Спасибо за развернутый ответ! С твоей конфигурацией можно вполне протестить Fimbulvetr-11B-v2, Moistral-11B-v3 (файнтюненый Fimbulvetr). На reddit прямо очень хорошие отзывы по ним. Я в эти модели сильно не углублялся, но с Koboldcpp первоначальные результаты были впечатляющими. Скажем так, на русском языке ни одной модели лучше не встречал (открытой, само собой, в схожим параметрах). Они доступны в gguf, можно взять 4-й квант с выгрузкой большей части слоев на GPU. Было бы интересно, как их твой скрипт оценит.
У меня конфигурация помощнее (64GB RAM и еще в дороге + 48 VRAM). Качаю разные версии LLama-3-70B. Есть относительно неплохой бенчмарк https://eqbench.com/ (Emotional Intelligence Benchmark), в топах там GPT4 (что, в целом и соответсвует действительности), дальше идут открытые Llama-3-70B, Qwen, Senku и т.д. Вот их хочу потестировать на русскоязычность. Так сказать сделать русский бенчмарк фаворитам. Потестить еще Command-R, Goliath, Capybara, Yi, Qwen, Senku, Miqu и прочее добро, часто встречающееся на reddit'овском LocalLLaMA. Непонятно, когда на все это будет время, правда. Создал коллекцию, буду добавлять туда по мере обнаружения достойных русскоговорящих моделей
https://huggingface.co/collections/opendev/russian-models-664f16e4e6054e1caa8ff488.
На reddit есть https://www.reddit.com/user/WolframRavenwolf/submitted/ который много тестит разных моделей, но о русскоязычности само собой ни слова.
P.S. Из "русских" моделей также еще есть две от sambalinguo, но там без квантов.
Есть еще монстр Яндексовский на yalm-100B, который возможно запускать только на 200+ VRAM. Это самая большая из доступных моделей с сильной русскоязычной направленностью. Но как ее квантовать непонятно и вопрос об этом на Github без ответа.
Потестил я разные модельки (локально, gguf), в общем и целом самыми адекватными русскоговорящими моделями мне показались плоды Cohere, а именно:
- Command-R plus
- Command-R 01 (35B)
- aya-35B (есть также и 8B)
Первые две неплохо общаются на русском, но английский язык у них все же основной. А вот aya-35B как раз позицинориуется как мультиязычная модель и у нее на русском языке очень хорошие результаты. GPT4 оценивает вывод aya-35B на русском языке выше чем Command-R plus.
Почитать можно здесь: https://cohere.com/research
Попробовать здесь:
- https://huggingface.co/spaces/CohereForAI/aya-23
- https://huggingface.co/spaces/CohereForAI/c4ai-command-r-v01
- https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus
Из проблем, качество локальной модели даже на максимальных квантах Q8 гораздо ниже чем качество оригинальной не квантованной модели aya доступной по ссылке в пункте 1). Повествование локальная модель выдерживает, но синтаксис, грамматика, склонения падежей и пр. страдает заметно.
Для английского языка предпочтительнее использовать Command-R 01 (35B) или Command-R plus. Последняя весьма требовательна к ресурсам, ибо 104B. К тому же, модели Cohere гораздо более прожорливые в плане памяти, выделяемой под контекст.
Разнообразные 70B модели тоже тестил, включая Llama-3, Midnight-Miqu, Senku но все они по качеству вывода на русском языке уступали Command-R.