Update README.md
Browse files
README.md
CHANGED
@@ -14,6 +14,7 @@ tags:
|
|
14 |
- transformers
|
15 |
|
16 |
license: mit
|
|
|
17 |
|
18 |
---
|
19 |
|
@@ -21,7 +22,14 @@ license: mit
|
|
21 |
|
22 |
Качественная модель BERT для расчетов эмбедингов предложений на русском языке. Модель основана на [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) - имеет аналогичные размеры контекста (512), ембединга (768) и быстродействие. Является второй и лучшей по качеству моделью в серии BERT-sts.
|
23 |
|
24 |
-
На STS и близких задачах (PI, NLI, SA, TI) для русского языка конкурирует по качеству с моделью [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (но потребляет на 77% меньше памяти и быстрее на 80%).
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
25 |
|
26 |
## Использование модели с библиотекой `transformers`:
|
27 |
|
@@ -57,7 +65,7 @@ print(util.dot_score(embeddings, embeddings))
|
|
57 |
```
|
58 |
|
59 |
## Метрики
|
60 |
-
Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka):
|
61 |
|
62 |
| Модель | STS | PI | NLI | SA | TI |
|
63 |
|:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:|
|
@@ -76,7 +84,7 @@ print(util.dot_score(embeddings, embeddings))
|
|
76 |
- Sentiment analysis (**SA**);
|
77 |
- Toxicity identification (**TI**).
|
78 |
|
79 |
-
## Быстродействие и размеры
|
80 |
|
81 |
На бенчмарке [encodechka](https://github.com/avidale/encodechka):
|
82 |
|
@@ -91,7 +99,7 @@ print(util.dot_score(embeddings, embeddings))
|
|
91 |
|
92 |
|
93 |
|
94 |
-
При использовании батчей с `sentence_transformers`:
|
95 |
|
96 |
```python
|
97 |
from sentence_transformers import SentenceTransformer
|
|
|
14 |
- transformers
|
15 |
|
16 |
license: mit
|
17 |
+
base_model: cointegrated/LaBSE-en-ru
|
18 |
|
19 |
---
|
20 |
|
|
|
22 |
|
23 |
Качественная модель BERT для расчетов эмбедингов предложений на русском языке. Модель основана на [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) - имеет аналогичные размеры контекста (512), ембединга (768) и быстродействие. Является второй и лучшей по качеству моделью в серии BERT-sts.
|
24 |
|
25 |
+
На STS и близких задачах (PI, NLI, SA, TI) для русского языка конкурирует по качеству с моделью [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (но потребляет на 77% меньше памяти и быстрее на 80%).
|
26 |
+
|
27 |
+
## Лучшая модель для использования в составе RAG LLMs при инференсе на GPU:
|
28 |
+
- [отличный метрики на задачах STS, PI, NLI](/#metrics) обеспечивают высокое качество при нечетких запросах;
|
29 |
+
- [средние показатели на задачах SA, TI](/#metrics) снижают влияние авторского стиля и личного отношения автора на ембединг;
|
30 |
+
- высокая скорость работы на GPU ([> 1k предложений в секунду](/#benchmark)) позволяет легко расширять базу текстовых документов;
|
31 |
+
- [пониженная размерность эмбединга (768)](/#benchmark_size) ускоряет дальнейшую работу алгоритмов knn при поиске соответствий;
|
32 |
+
- совместимость с [SentenceTransformer](https://github.com/UKPLab/sentence-transformers) упрощает использование с минимальным объемом кода.
|
33 |
|
34 |
## Использование модели с библиотекой `transformers`:
|
35 |
|
|
|
65 |
```
|
66 |
|
67 |
## Метрики
|
68 |
+
Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka): <a id=metrics"></a>
|
69 |
|
70 |
| Модель | STS | PI | NLI | SA | TI |
|
71 |
|:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:|
|
|
|
84 |
- Sentiment analysis (**SA**);
|
85 |
- Toxicity identification (**TI**).
|
86 |
|
87 |
+
## Быстродействие и размеры <a id=benchmark_size"></a>
|
88 |
|
89 |
На бенчмарке [encodechka](https://github.com/avidale/encodechka):
|
90 |
|
|
|
99 |
|
100 |
|
101 |
|
102 |
+
При использовании батчей с `sentence_transformers`: <a id=benchmark"></a>
|
103 |
|
104 |
```python
|
105 |
from sentence_transformers import SentenceTransformer
|