Defetya
/

ru-3b-openllama-transformers

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

ru-3b-openllama-transformers / README.md

Defetya's picture

Update README.md

8632769 verified 6 months ago

|

history blame contribute delete

No virus

1.54 kB

	---
	license: apache-2.0
	datasets:
	- oscar-corpus/OSCAR-2301
	- wikipedia
	metrics:
	- perplexity
	---
	Модель openllama_3b_v2, secondstage pre-trained на датасете OSCAR (4k sequence length) и на вики датасете (8k sequence length). В сумме получилось 10-12B токенов. Достигает 3.2 значения перплексии на вики+оскар датасетах (на той части, которая не была показана модели).

	Был осуществлен тест на mmlu-ru. Результаты таковы (справа - моя модель, слева - изначальная версия):

	accuracy_total: 26.04 / 27.28
	STEM: 25.51699654022026 / 26.910630806469058
	humanities: 28.404847276301254 / 24.290275834763932
	"other (business, health, misc.)": 25.39168024941998 / 29.81126559385235
	social sciences: 24.83523489382067 / 28.101196261261098

	Файлы с результатами sub_categories.csv (sub_categories_my.csv) тут.

	Результаты показывают, что модель действительно чему-то научилась и лучше понимает русский язык. Будет осуществлено дальнейшее тестирование, а также обучение чатбота на датасетах Ильи Гусева (saiga).

	Послеобучение было осуществлено на Google TPU v4-32 (TRC) с использованием EasyLM, на JAX/Flax.