ai-forever/ruGPT-3.5-13B · Запуск модели.

lorim29

Jul 20, 2023

Какие требования к оборудованию?
Как запустить эту модель на локальном компьютере?
Как запустить модель на видеокарте?

WaveCut

Jul 20, 2023

It's 52 gb of weights... I mean. Maybe. If we quantize it, a lot.

mrsteyk

Jul 20, 2023

•

edited Jul 20, 2023

13*4 (fp32) = 52gb, если бы веса были в фп16 - 13*2 = 26gb. Требования такие же как и у любой другой MHA модели на 13б, возможно чуть выше в связи с возрастом имплементации ГПТ2 в библиотеке трансформерс (мемные аппроксимации и конв1д замедлят инференс). Интересно что в качестве архитектуры была выбрана GPT2, а не скажем NeoX...

Gaivoronsky

Jul 20, 2023

Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16

valanchik

Jul 21, 2023

•

edited Jul 21, 2023

Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16

Да блин, она даже в 3090(24Гб) не влазит. Я не понимаю, что у всех тут a6000 или A100? Куча моделей есть нормальных, но мало того что СБ выпустил какаху, да ещё и попробовать никому не даёт нормально. В чём смысл этой модели? Чтобы 2 человека ждали пока она через пол часа напечатает ответ чем Крым? :) СБ позорники! Гигачат - просрали, ruGPT - просрали. Это РоссииИя! Один яндекс что-то там трепыхается с горем пополам и то вот-вот помрёт :) НУ реально, стыдно даже слегка за наше ИТ

mrsteyk

Jul 21, 2023

•

edited Jul 21, 2023

@valanchik в 4090 или оффлоад/квант влезет, также т.к. эта модель на арке гпт2, то есть куча относительно быстрых либ для инференса на проце либо проц+карта. А так. подобные модели делают чтобы влезли на "дешёвые" карты по типу а40.
З.Ы. ниже 13б интеллекта как такого можно не ждать.

Gaivoronsky

Jul 21, 2023

Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16

Да блин, она даже в 3090(24Гб) не влазит. Я не понимаю, что у всех тут a6000 или A100? Куча моделей есть нормальных, но мало того что СБ выпустил какаху, да ещё и попробовать никому не даёт нормально. В чём смысл этой модели? Чтобы 2 человека ждали пока она через пол часа напечатает ответ чем Крым? :) СБ позорники! Гигачат - просрали, ruGPT - просрали. Это РоссииИя! Один яндекс что-то там трепыхается с горем пополам и то вот-вот помрёт :) НУ реально, стыдно даже слегка за наше ИТ

На 3090 в самый раз LLaMa-2 от Meta. Там как раз есть реализация на 7 ярдов meta-llama/Llama-2-7b-chat-hf, русский язык там более менее

Andrilko

Jul 21, 2023

Для тех, кто говорит о том, что не лезет в fp16 13б на 24гб . Посчитайте пожалуйста сколько нужно по 2 байта на 13б. Получите 26 а не 24гб. Чтобы влезло надо в int8 квантануть и будет ок.

Gaivoronsky

Jul 21, 2023

Вот реализация которая запустится на 3090 (24 ГБ) Gaivoronsky/ruGPT-3.5-13B-8bit

averoo

Jul 21, 2023

Colab для запуска (4bit version).

https://colab.research.google.com/drive/1KyDX_D-rsKN8qpIvo3YMXSYmT3poaBGN

Andrilko

Jul 21, 2023

Сереж а давай в описание карточки модели добавим?

artyomboyko

Jul 22, 2023

Вы ее квантовали до 4 бит?) Чудны дела твои Господи, но вот это что за ...))) Если серьезно, Nvidia A40 - это не дешевая карта, дешевые - это 3080, 4080... И да, скриншот ниже. Почините инференс...

Andrilko

Jul 22, 2023

@artyomboyko https://huggingface.co/gurgutan/ruGPT-13B-4bit

steamvinstudios

Jul 22, 2023

Ждем 13b 2bit GGML и ruGPT-3.5-13B-Chat-q2

lorim29

Jul 22, 2023

Модель запустилась с помощью text-generation-webui (https://github.com/oobabooga/text-generation-webui), но работает медленно на моём железе.

lorim29 changed discussion status to closed Jul 22, 2023

artyomboyko

Jul 22, 2023

Я про инференс на странице модели. Видимо торопился, не указал. На самой странице HF модели нужно инференс починить.

JorgyM

Oct 21, 2023

у меня влезает 16b в 4090 и запускается, правда что бы выдача была более менее нормальная по инпуту с клавы надо чуть пошаманить

n1ck500

Feb 15, 2024

Какие требования к оборудованию?
Как запустить эту модель на локальном компьютере?
Как запустить модель на видеокарте?

Прекрасно запускается модель и на text-generation-webui и на koboldcpp ..
Я запускаю на процессоре, вполне себе работает с любым квантованием модели (выше - думает дольше). Аналогично учитывать объем оперативки, для ruGPT-3.5-13B нужно от 16Гб при старте на CPU. Чем и хорош проц, можно задвинуть модели и на 70b и выше в зависимости от оперативки

qweqwerqwef

Feb 17, 2024

Прекрасно запускается модель и на text-generation-webui и на koboldcpp ..
Я запускаю на процессоре, вполне себе работает с любым квантованием модели (выше - думает дольше). Аналогично учитывать объем оперативки, для ruGPT-3.5-13B нужно от 16Гб при старте на CPU. Чем и хорош проц, можно задвинуть модели и на 70b и выше в зависимости от оперативки

Какую конкретно модель ты смог запустить на кобольде?

n1ck500

Feb 18, 2024

•

edited Feb 18, 2024

На кобольде: ruGPT-3.5-13B-Q4_0.gguf, процессоре.
На мой взгляд шустро и более менее без лютой кривой орфографии хорошо работает вообще другая, вот эта: silicon-masha-7b.Q5_0.gguf
И самый быстрый всеядный и прожорливый по форматам софт это chat4all программуля. Например альпака электрон - запускает модели через один, не ясно почему не может загрузить некоторые модели..
Я уже штук 15 различных моделей оттестировал. По уму самая хорошая для РУ сектора: IlyaGusev_saiga2_13b_gguf_model-q8_0.gguf но медленная совсем