michaelfeil
/

ct2fast-e5-large-v2

@@ -2608,20 +2608,16 @@ Speedup inference while reducing memory by 2x-4x using int8 inference in C++ on
 quantized version of [intfloat/e5-large-v2](https://huggingface.co/intfloat/e5-large-v2)
 ```bash
-pip install hf-hub-ctranslate2>=2.10.0 ctranslate2>=3.16.0
 ```
 ```python
 # from transformers import AutoTokenizer
 model_name = "michaelfeil/ct2fast-e5-large-v2"
-from hf_hub_ctranslate2 import EncoderCT2fromHfHub
-model = EncoderCT2fromHfHub(
-        # load in int8 on CUDA
-        model_name_or_path=model_name,
-        device="cuda",
-        compute_type="float16",
-        # tokenizer=AutoTokenizer.from_pretrained("{ORG}/{NAME}")
 )
 embeddings = model.encode(
     ["I like soccer", "I like tennis", "The eiffel tower is in Paris"],
@@ -2635,13 +2631,13 @@ scores = (embeddings @ embeddings.T) * 100
 ```
 Checkpoint compatible to [ctranslate2>=3.16.0](https://github.com/OpenNMT/CTranslate2)
-and [hf-hub-ctranslate2>=2.10.0](https://github.com/michaelfeil/hf-hub-ctranslate2)
 - `compute_type=int8_float16` for `device="cuda"`
 - `compute_type=int8`  for `device="cpu"`
-Converted on 2023-06-16 using
 ```
-ct2-transformers-converter --model intfloat/e5-large-v2 --output_dir ~/tmp-ct2fast-e5-large-v2 --force --copy_files tokenizer.json README.md tokenizer_config.json vocab.txt special_tokens_map.json .gitattributes --quantization float16 --trust_remote_code
 ```
 # Licence and other remarks:

 quantized version of [intfloat/e5-large-v2](https://huggingface.co/intfloat/e5-large-v2)
 ```bash
+pip install hf-hub-ctranslate2>=3.0.0 ctranslate2>=3.16.0
 ```
 ```python
 # from transformers import AutoTokenizer
 model_name = "michaelfeil/ct2fast-e5-large-v2"
+from hf_hub_ctranslate2 import CT2SentenceTransformer
+model = CT2SentenceTransformer(
+    model_name, compute_type="int8_float16", device="cuda"
 )
 embeddings = model.encode(
     ["I like soccer", "I like tennis", "The eiffel tower is in Paris"],
 ```
 Checkpoint compatible to [ctranslate2>=3.16.0](https://github.com/OpenNMT/CTranslate2)
+and [hf-hub-ctranslate2>=3.0.0](https://github.com/michaelfeil/hf-hub-ctranslate2)
 - `compute_type=int8_float16` for `device="cuda"`
 - `compute_type=int8`  for `device="cpu"`
+Converted on 2023-06-18 using
 ```
+ct2-transformers-converter --model intfloat/e5-large-v2 --output_dir ~/tmp-ct2fast-e5-large-v2 --force --copy_files tokenizer.json sentence_bert_config.json README.md modules.json special_tokens_map.json vocab.txt tokenizer_config.json .gitattributes --trust_remote_code
 ```
 # Licence and other remarks:

model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:074f41ce6dbf6564f709b9bfa09f88894c3b05c85f0eeb515bea9c2b72a1c67f
-size 670300108

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a2e972c674871a0be45c33e92a898e4b04256a882fdf6e6a72a2629facaea59
+size 1340583884

modules.json ADDED Viewed

+[
+    {
+      "idx": 0,
+      "name": "0",
+      "path": "",
+      "type": "sentence_transformers.models.Transformer"
+    },
+    {
+      "idx": 1,
+      "name": "1",
+      "path": "1_Pooling",
+      "type": "sentence_transformers.models.Pooling"
+    },
+    {
+      "idx": 2,
+      "name": "2",
+      "path": "2_Normalize",
+      "type": "sentence_transformers.models.Normalize"
+    }
+  ]

sentence_bert_config.json ADDED Viewed

+{
+    "max_seq_length": 512,
+    "do_lower_case": false
+}