Text Generation
Russian
conversational

30B vs 65B

#4
by BahamutRU - opened

Насколько качественна Сайга 30B по сравнению с Ламой 65B?
Есть ли у нас шанс увидеть Сайгу 65B, или это лишнее и не имеет смысла?
Пытаюсь выбрать себе постоянного ассистента, так как это для личного неторопливого пользования, то скорость генерации не критична, а объем знаний, чистота речи и многогранность возможных личностей определенно интересны. =)
Простите, если тупой. ¯\(ツ)

  1. Чёрт знает, с точки зрения базовых возможностей вряд ли лучше, с точки зрения использования - сильно лучше.
  2. Да, шанс есть, это не лишнее

Было бы отлично!
Я не сильно в этом разбираюсь, но думаю, что лучше дообучать что-нибудь вроде https://huggingface.co/Aeala/VicUnlocked-alpaca-65b-QLoRA , а не голую? Это лишь мысль, вам виднее, как это делать лучше. =)
Будем надеяться и ждать!

Кстати, а сколько времени займет тренировка 65B модели на ваших датасетах на видеокарте 4070 ti с 12 гигами и 12-поточном проце с 128 озу? Имеет ли смысл попытаться это сделать самому?

(Энтрапта — огонь)

Вообще-то мысль отличная, такое мы ещё не пробовали, а докинуть качества может.

Нисколько - это невозможно. Даже в 4 битах 65B параметров требуют 30GB памяти.

(согласен)

Аха, то есть при обучении она целиком грузится в память. Спасибо, понятно, буду следить за вашим репозиторием, получается. =)

BahamutRU changed discussion status to closed

Sign up or log in to comment