dim/tiny-llama-2T-open-orca-ru-10000-step · Вопрос про обучение модели

Эта модель уже неплохо говорит на русском (хоть и с акцентом переводчика Google).
Но изначально tiny llama этого не умеет вроде бы вообще.
Как у вас это получилось? Где-то я читал, что если в наборах данных модели, на которых она изначально создавалась, чего-то нет, то и дообучать её этому практически бесполезно.
Мне бы хотелось попробовать повторить этот опыт с другими небольшими моделями, например вот эта довольно смышлёная:
https://huggingface.co/acrastt/Marx-3B-V3
Какое оборудование и программы для этого нужны?

Добрый день. Я дообучил данную модель при помощи framework'a axolotl. В данном репозитории есть много конфигов под различные foundational модели, советую изучить их подробно и подобрать наиболее подходящий для вас формат датасетов.

Конфиг для обучения данной модели можно найти тут. Также в данном репозитории вы можете найти docker container с cuda, чтобы с минимальными усилиями воспроизвести походую среду разработки.

Оборудование которое я использовал это 2-A100-40GB. Но я уверен что если использовать adamw_bnb_8bit, batch_size=1, gradient_accumulation_steps >= 64 вы сможете добиться схожих результатах и на видеокарте с 12GB, в идеале конечно найти RTX 3090.

Если же своего оборудования нет, вы можете попробовать kaggle или google colab, но тогда придется держать открытой вкладку браузера долгое время.

По своему опыту скажу что практически бесполезно тюнить модели(даже полный файнтюн), которые обучались на SlimPajama.

График обучения можно найти и в репозитории. ссылка на wandb