sergeyzh
/

LaBSE-ru-sts

@@ -14,6 +14,7 @@ tags:
 - transformers
 license: mit
 ---
@@ -21,7 +22,14 @@ license: mit
 Качественная модель BERT для расчетов эмбедингов предложений на русском языке. Модель основана на [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) - имеет аналогичные размеры контекста (512), ембединга (768) и быстродействие. Является второй и лучшей по качеству моделью в серии BERT-sts.
-На STS и близких задачах (PI, NLI, SA, TI) для русского языка конкурирует по качеству с моделью [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (но потребляет на 77% меньше памяти и быстрее на 80%). Оптимальна для использования в составе RAG LLMs при инференсе на GPU.
 ## Использование модели с библиотекой `transformers`:
@@ -57,7 +65,7 @@ print(util.dot_score(embeddings, embeddings))
 ```
 ## Метрики
-Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka):
 | Модель                           | STS       | PI        | NLI       | SA        | TI        |
 |:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:|
@@ -76,7 +84,7 @@ print(util.dot_score(embeddings, embeddings))
 - Sentiment analysis (**SA**);
 - Toxicity identification (**TI**).
-## Быстродействие и размеры
 На бенчмарке [encodechka](https://github.com/avidale/encodechka):
@@ -91,7 +99,7 @@ print(util.dot_score(embeddings, embeddings))
-При использовании батчей с `sentence_transformers`:
 ```python
 from sentence_transformers import SentenceTransformer

 - transformers
 license: mit
+base_model: cointegrated/LaBSE-en-ru
 ---
 Качественная модель BERT для расчетов эмбедингов предложений на русском языке. Модель основана на [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) - имеет аналогичные размеры контекста (512), ембединга (768) и быстродействие. Является второй и лучшей по качеству моделью в серии BERT-sts.
+На STS и близких задачах (PI, NLI, SA, TI) для русского языка конкурирует по качеству с моделью [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (но потребляет на 77% меньше памяти и быстрее на 80%).
+## Лучшая модель для использования в составе RAG LLMs при инференсе на GPU:
+- [отличный метрики на задачах STS, PI, NLI](/#metrics) обеспечивают высокое качество при нечетких запросах;
+- [средние показатели на задачах SA, TI](/#metrics) снижают влияние авторского стиля и личного отношения автора на ембединг;
+- высокая скорость работы на GPU ([> 1k предложений в секунду](/#benchmark)) позволяет легко расширять базу текстовых документов;
+- [пониженная размерность эмбединга (768)](/#benchmark_size) ускоряет дальнейшую работу алгоритмов knn при поиске соответствий;
+- совместимость с [SentenceTransformer](https://github.com/UKPLab/sentence-transformers) упрощает использование с минимальным объемом кода.
 ## Использование модели с библиотекой `transformers`:
 ```
 ## Метрики
+Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka): <a id=metrics"></a>
 | Модель                           | STS       | PI        | NLI       | SA        | TI        |
 |:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:|
 - Sentiment analysis (**SA**);
 - Toxicity identification (**TI**).
+## Быстродействие и размеры <a id=benchmark_size"></a>
 На бенчмарке [encodechka](https://github.com/avidale/encodechka):
+При использовании батчей с `sentence_transformers`: <a id=benchmark"></a>
 ```python
 from sentence_transformers import SentenceTransformer