sergeyzh commited on
Commit
a45adfb
1 Parent(s): cf9bbba

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -4
README.md CHANGED
@@ -14,6 +14,7 @@ tags:
14
  - transformers
15
 
16
  license: mit
 
17
 
18
  ---
19
 
@@ -21,7 +22,14 @@ license: mit
21
 
22
  Качественная модель BERT для расчетов эмбедингов предложений на русском языке. Модель основана на [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) - имеет аналогичные размеры контекста (512), ембединга (768) и быстродействие. Является второй и лучшей по качеству моделью в серии BERT-sts.
23
 
24
- На STS и близких задачах (PI, NLI, SA, TI) для русского языка конкурирует по качеству с моделью [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (но потребляет на 77% меньше памяти и быстрее на 80%). Оптимальна для использования в составе RAG LLMs при инференсе на GPU.
 
 
 
 
 
 
 
25
 
26
  ## Использование модели с библиотекой `transformers`:
27
 
@@ -57,7 +65,7 @@ print(util.dot_score(embeddings, embeddings))
57
  ```
58
 
59
  ## Метрики
60
- Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka):
61
 
62
  | Модель | STS | PI | NLI | SA | TI |
63
  |:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:|
@@ -76,7 +84,7 @@ print(util.dot_score(embeddings, embeddings))
76
  - Sentiment analysis (**SA**);
77
  - Toxicity identification (**TI**).
78
 
79
- ## Быстродействие и размеры
80
 
81
  На бенчмарке [encodechka](https://github.com/avidale/encodechka):
82
 
@@ -91,7 +99,7 @@ print(util.dot_score(embeddings, embeddings))
91
 
92
 
93
 
94
- При использовании батчей с `sentence_transformers`:
95
 
96
  ```python
97
  from sentence_transformers import SentenceTransformer
 
14
  - transformers
15
 
16
  license: mit
17
+ base_model: cointegrated/LaBSE-en-ru
18
 
19
  ---
20
 
 
22
 
23
  Качественная модель BERT для расчетов эмбедингов предложений на русском языке. Модель основана на [cointegrated/LaBSE-en-ru](https://huggingface.co/cointegrated/LaBSE-en-ru) - имеет аналогичные размеры контекста (512), ембединга (768) и быстродействие. Является второй и лучшей по качеству моделью в серии BERT-sts.
24
 
25
+ На STS и близких задачах (PI, NLI, SA, TI) для русского языка конкурирует по качеству с моделью [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (но потребляет на 77% меньше памяти и быстрее на 80%).
26
+
27
+ ## Лучшая модель для использования в составе RAG LLMs при инференсе на GPU:
28
+ - [отличный метрики на задачах STS, PI, NLI](/#metrics) обеспечивают высокое качество при нечетких запросах;
29
+ - [средние показатели на задачах SA, TI](/#metrics) снижают влияние авторского стиля и личного отношения автора на ембединг;
30
+ - высокая скорость работы на GPU ([> 1k предложений в секунду](/#benchmark)) позволяет легко расширять базу текстовых документов;
31
+ - [пониженная размерность эмбединга (768)](/#benchmark_size) ускоряет дальнейшую работу алгоритмов knn при поиске соответствий;
32
+ - совместимость с [SentenceTransformer](https://github.com/UKPLab/sentence-transformers) упрощает использование с минимальным объемом кода.
33
 
34
  ## Использование модели с библиотекой `transformers`:
35
 
 
65
  ```
66
 
67
  ## Метрики
68
+ Оценки модели на бенчмарке [encodechka](https://github.com/avidale/encodechka): <a id=metrics"></a>
69
 
70
  | Модель | STS | PI | NLI | SA | TI |
71
  |:---------------------------------|:---------:|:---------:|:---------:|:---------:|:---------:|
 
84
  - Sentiment analysis (**SA**);
85
  - Toxicity identification (**TI**).
86
 
87
+ ## Быстродействие и размеры <a id=benchmark_size"></a>
88
 
89
  На бенчмарке [encodechka](https://github.com/avidale/encodechka):
90
 
 
99
 
100
 
101
 
102
+ При использовании батчей с `sentence_transformers`: <a id=benchmark"></a>
103
 
104
  ```python
105
  from sentence_transformers import SentenceTransformer