Запуск модели.

#1
by lorim29 - opened

Какие требования к оборудованию?
Как запустить эту модель на локальном компьютере?
Как запустить модель на видеокарте?

It's 52 gb of weights... I mean. Maybe. If we quantize it, a lot.

13*4 (fp32) = 52gb, если бы веса были в фп16 - 13*2 = 26gb. Требования такие же как и у любой другой MHA модели на 13б, возможно чуть выше в связи с возрастом имплементации ГПТ2 в библиотеке трансформерс (мемные аппроксимации и конв1д замедлят инференс). Интересно что в качестве архитектуры была выбрана GPT2, а не скажем NeoX...

Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16

Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16

Да блин, она даже в 3090(24Гб) не влазит. Я не понимаю, что у всех тут a6000 или A100? Куча моделей есть нормальных, но мало того что СБ выпустил какаху, да ещё и попробовать никому не даёт нормально. В чём смысл этой модели? Чтобы 2 человека ждали пока она через пол часа напечатает ответ чем Крым? :) СБ позорники! Гигачат - просрали, ruGPT - просрали. Это РоссииИя! Один яндекс что-то там трепыхается с горем пополам и то вот-вот помрёт :) НУ реально, стыдно даже слегка за наше ИТ

@valanchik в 4090 или оффлоад/квант влезет, также т.к. эта модель на арке гпт2, то есть куча относительно быстрых либ для инференса на проце либо проц+карта. А так. подобные модели делают чтобы влезли на "дешёвые" карты по типу а40.
З.Ы. ниже 13б интеллекта как такого можно не ждать.

Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16

Да блин, она даже в 3090(24Гб) не влазит. Я не понимаю, что у всех тут a6000 или A100? Куча моделей есть нормальных, но мало того что СБ выпустил какаху, да ещё и попробовать никому не даёт нормально. В чём смысл этой модели? Чтобы 2 человека ждали пока она через пол часа напечатает ответ чем Крым? :) СБ позорники! Гигачат - просрали, ruGPT - просрали. Это РоссииИя! Один яндекс что-то там трепыхается с горем пополам и то вот-вот помрёт :) НУ реально, стыдно даже слегка за наше ИТ

На 3090 в самый раз LLaMa-2 от Meta. Там как раз есть реализация на 7 ярдов meta-llama/Llama-2-7b-chat-hf, русский язык там более менее

Для тех, кто говорит о том, что не лезет в fp16 13б на 24гб . Посчитайте пожалуйста сколько нужно по 2 байта на 13б. Получите 26 а не 24гб. Чтобы влезло надо в int8 квантануть и будет ок.

Вот реализация которая запустится на 3090 (24 ГБ) Gaivoronsky/ruGPT-3.5-13B-8bit

Сереж а давай в описание карточки модели добавим?

Вы ее квантовали до 4 бит?) Чудны дела твои Господи, но вот это что за ...))) Если серьезно, Nvidia A40 - это не дешевая карта, дешевые - это 3080, 4080... И да, скриншот ниже. Почините инференс...

image.png

Ждем 13b 2bit GGML и ruGPT-3.5-13B-Chat-q2

Модель запустилась с помощью text-generation-webui (https://github.com/oobabooga/text-generation-webui), но работает медленно на моём железе.

lorim29 changed discussion status to closed

Я про инференс на странице модели. Видимо торопился, не указал. На самой странице HF модели нужно инференс починить.

у меня влезает 16b в 4090 и запускается, правда что бы выдача была более менее нормальная по инпуту с клавы надо чуть пошаманить

Какие требования к оборудованию?
Как запустить эту модель на локальном компьютере?
Как запустить модель на видеокарте?

Прекрасно запускается модель и на text-generation-webui и на koboldcpp ..
Я запускаю на процессоре, вполне себе работает с любым квантованием модели (выше - думает дольше). Аналогично учитывать объем оперативки, для ruGPT-3.5-13B нужно от 16Гб при старте на CPU. Чем и хорош проц, можно задвинуть модели и на 70b и выше в зависимости от оперативки

Прекрасно запускается модель и на text-generation-webui и на koboldcpp ..
Я запускаю на процессоре, вполне себе работает с любым квантованием модели (выше - думает дольше). Аналогично учитывать объем оперативки, для ruGPT-3.5-13B нужно от 16Гб при старте на CPU. Чем и хорош проц, можно задвинуть модели и на 70b и выше в зависимости от оперативки

Какую конкретно модель ты смог запустить на кобольде?

На кобольде: ruGPT-3.5-13B-Q4_0.gguf, процессоре.
На мой взгляд шустро и более менее без лютой кривой орфографии хорошо работает вообще другая, вот эта: silicon-masha-7b.Q5_0.gguf
И самый быстрый всеядный и прожорливый по форматам софт это chat4all программуля. Например альпака электрон - запускает модели через один, не ясно почему не может загрузить некоторые модели..
Я уже штук 15 различных моделей оттестировал. По уму самая хорошая для РУ сектора: IlyaGusev_saiga2_13b_gguf_model-q8_0.gguf но медленная совсем

для ру юзайте openchat-3.5, моделька на 7б параметров, при том поумнее многих 70б моделей

По уму самая хорошая для РУ сектора: IlyaGusev_saiga2_13b_gguf_model-q8_0.gguf но медленная совсем

+1 Сайга - это пока что лучшее, что удалось затестить на русском.

@Dimanjy @Dword а Вихрь пробовали? @Vikhrmodels

@Dimanjy @Dword а Вихрь пробовали? @Vikhrmodels

Это что, шутка? Там в описании маты-перематы. Такое даже трогать не хочется.

а можно инструкцию как запускать?

Sign up or log in to comment