michaelfeil
/

ct2fast-paraphrase-multilingual-MiniLM-L12-v2

@@ -38,12 +38,11 @@ model = EncoderCT2fromHfHub(
         # load in int8 on CUDA
         model_name_or_path=model_name,
         device="cuda",
-        compute_type="int8_float16",
         # tokenizer=AutoTokenizer.from_pretrained("{ORG}/{NAME}")
 )
 outputs = model.generate(
-    text=["def fibonnaci(", "User: How are you doing? Bot:"],
-    max_length=64,
 )
 print(outputs.shape, outputs)
 ```

         # load in int8 on CUDA
         model_name_or_path=model_name,
         device="cuda",
+        compute_type="float16",
         # tokenizer=AutoTokenizer.from_pretrained("{ORG}/{NAME}")
 )
 outputs = model.generate(
+    text=["I like soccer", "I like tennis", "The eiffel tower is in Paris"],
 )
 print(outputs.shape, outputs)
 ```

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff