LaBSE-ru-sts / README.md

Update README.md

0959ed2 verified 3 months ago

No virus

7.77 kB

	---
	language:
	- ru

	pipeline_tag: sentence-similarity

	tags:
	- russian
	- pretraining
	- embeddings
	- feature-extraction
	- sentence-similarity
	- sentence-transformers
	- transformers

	license: mit
	base_model: cointegrated/LaBSE-en-ru

	---

	## Базовый Bert для Semantic text similarity (STS) на GPU

	Качественная модель BERT для расчетов эмбедингов предложений на русском языке. Модель основана на [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) - имеет аналогичные размеры контекста (512), ембединга (768) и быстродействие. Является второй и лучшей по качеству моделью в серии BERT-STS.

	На STS и близких задачах (PI, NLI, SA, TI) для русского языка конкурирует по качеству с моделью [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (но потребляет на 77% меньше памяти и быстрее на 80%).

	## Выбор модели из серии BERT-STS (качество/скорость)
	\| Рекомендуемая модель \| CPU <br> (STS; snt/s) \| GPU <br> (STS; snt/s) \|
	\|:---------------------------------\|:---------:\|:---------:\|
	\| Быстрая модель (скорость) \| [rubert-tiny-sts](https://huggingface.co/sergeyzh/rubert-tiny-sts) <br> (0.797; 1190) \| - \|
	\| Базовая модель (качество) \| [rubert-mini-sts](https://huggingface.co/sergeyzh/rubert-mini-sts) <br> (0.815; 539) \| LaBSE-ru-sts <br> (0.845; 1894) \|

	## Лучшая модель для использования в составе RAG LLMs при инференсе на GPU:
	- высокое качество при нечетких запросах (отличный метрики на задачах STS, PI, NLI);
	- низкое влияение эмоциональной окраски текста на ембединг (средние показатели на задачах SA, TI);
	- легкое расширение базы текстовых документов (скорость работы на GPU > 1k предложений в секунду);
	- ускорение алгоритмов knn при поиске соответствий (пониженная размерность эмбединга 768);
	- простота использования (совместимость с [SentenceTransformer](https://github.com/UKPLab/sentence-transformers)).

	## Использование модели с библиотекой `transformers`:

	```python
	# pip install transformers sentencepiece
	import torch
	from transformers import AutoTokenizer, AutoModel
	tokenizer = AutoTokenizer.from_pretrained("sergeyzh/LaBSE-ru-sts")
	model = AutoModel.from_pretrained("sergeyzh/LaBSE-ru-sts")
	# model.cuda() # uncomment it if you have a GPU

	def embed_bert_cls(text, model, tokenizer):
	t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
	with torch.no_grad():
	model_output = model(**{k: v.to(model.device) for k, v in t.items()})
	embeddings = model_output.last_hidden_state[:, 0, :]
	embeddings = torch.nn.functional.normalize(embeddings)
	return embeddings[0].cpu().numpy()

	print(embed_bert_cls('привет мир', model, tokenizer).shape)
	# (768,)
	```

	## Использование с `sentence_transformers`:
	```Python
	from sentence_transformers import SentenceTransformer, util

	model = SentenceTransformer('sergeyzh/LaBSE-ru-sts')

	sentences = ["привет мир", "hello world", "здравствуй вселенная"]
	embeddings = model.encode(sentences)
	print(util.dot_score(embeddings, embeddings))
	```

	## Метрики
	Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka):

	\| Модель \| STS \| PI \| NLI \| SA \| TI \|
	\|:---------------------------------\|:---------:\|:---------:\|:---------:\|:---------:\|:---------:\|
	\| [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) \| 0.862 \| 0.727 \| 0.473 \| 0.810 \| 0.979 \|
	\| sergeyzh/LaBSE-ru-sts \| 0.845 \| 0.737 \| 0.481 \| 0.805 \| 0.957 \|
	\| [sergeyzh/rubert-mini-sts](https://huggingface.co/sergeyzh/rubert-mini-sts) \| 0.815 \| 0.723 \| 0.477 \| 0.791 \| 0.949 \|
	\| [sergeyzh/rubert-tiny-sts](https://huggingface.co/sergeyzh/rubert-tiny-sts) \| 0.797 \| 0.702 \| 0.453 \| 0.778 \| 0.946 \|
	\| [Tochka-AI/ruRoPEBert-e5-base-512](https://huggingface.co/Tochka-AI/ruRoPEBert-e5-base-512) \| 0.793 \| 0.704 \| 0.457 \| 0.803 \| 0.970 \|
	\| [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) \| 0.794 \| 0.659 \| 0.431 \| 0.761 \| 0.946 \|
	\| [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2) \| 0.750 \| 0.651 \| 0.417 \| 0.737 \| 0.937 \|

	Задачи:

	- Semantic text similarity (STS);
	- Paraphrase identification (PI);
	- Natural language inference (NLI);
	- Sentiment analysis (SA);
	- Toxicity identification (TI).

	## Быстродействие и размеры

	На бенчмарке [encodechka](https://github.com/avidale/encodechka):

	\| Модель \| CPU \| GPU \| size \| dim \| n_ctx \| n_vocab \|
	\|:---------------------------------\|----------:\|----------:\|----------:\|----------:\|----------:\|----------:\|
	\| [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) \| 149.026 \| 15.629 \| 2136 \| 1024 \| 514 \| 250002 \|
	\| sergeyzh/LaBSE-ru-sts \|42.835 \| 8.561 \| 490 \| 768 \| 512 \| 55083 \|
	\| [sergeyzh/rubert-mini-sts](https://huggingface.co/sergeyzh/rubert-mini-sts) \| 6.417 \| 5.517 \| 123 \| 312 \| 2048 \| 83828 \|
	\| [sergeyzh/rubert-tiny-sts](https://huggingface.co/sergeyzh/rubert-tiny-sts) \| 3.208 \| 3.379 \| 111 \| 312 \| 2048 \| 83828 \|
	\| [Tochka-AI/ruRoPEBert-e5-base-512](https://huggingface.co/Tochka-AI/ruRoPEBert-e5-base-512) \| 43.314 \| 9.338 \| 532 \| 768 \| 512 \| 69382 \|
	\| [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) \| 42.867 \| 8.549 \| 490 \| 768 \| 512 \| 55083 \|
	\| [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2) \| 3.212 \| 3.384 \| 111 \| 312 \| 2048 \| 83828 \|



	При использовании батчей с `sentence_transformers`:

	```python
	from sentence_transformers import SentenceTransformer

	model_name = 'sergeyzh/LaBSE-ru-sts'
	model = SentenceTransformer(model_name, device='cpu')
	sentences = ["Тест быстродействия на CPU Ryzen 7 3800X: batch = 50"] * 50
	%timeit -n 5 -r 3 model.encode(sentences)

	# 882 ms ± 104 ms per loop (mean ± std. dev. of 3 runs, 5 loops each)
	# 50/0.882 = 57 snt/s

	model = SentenceTransformer(model_name, device='cuda')
	sentences = ["Тест быстродействия на GPU RTX 3060: batch = 1500"] * 1500
	%timeit -n 5 -r 3 model.encode(sentences)

	# 792 ms ± 29 ms per loop (mean ± std. dev. of 3 runs, 5 loops each)
	# 1500/0.792 = 1894 snt/s
	```

	## Связанные ресурсы
	Вопросы использования модели обсуждаются в [русскоязычном чате NLP](https://t.me/natural_language_processing).