Spaces:

tryolabs
/

transformers-optimization

Runtime error

juanfkurucz commited on Nov 14, 2022

Commit

54ac152

1 Parent(s): d61e332

Add max sequence length to tokenizer inference

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,8 @@ from huggingface_hub import hf_hub_download
 from onnxruntime import InferenceSession
 from transformers import AutoModelForQuestionAnswering, AutoTokenizer
 models = {
     "Base model": "bert-large-uncased-whole-word-masking-finetuned-squad",
     "Pruned model": "madlag/bert-large-uncased-wwm-squadv2-x2.63-f82.6-d16-hybrid-v1",
@@ -43,13 +45,19 @@ def run_normal_hf(model_name, inputs):
 def inference(model_name, context, question):
     tokenizer = AutoTokenizer.from_pretrained(models[model_name])
     if model_name == "Pruned ONNX Optimized FP16":
-        inputs = dict(tokenizer(question, context, return_tensors="np"))
         output, inference_time = run_ort_inference(model_name, inputs)
         answer_start_scores, answer_end_scores = torch.tensor(output[0]), torch.tensor(
             output[1]
         )
     else:
-        inputs = tokenizer(question, context, return_tensors="pt")
         output, inference_time = run_normal_hf(model_name, inputs)
         answer_start_scores, answer_end_scores = output

 from onnxruntime import InferenceSession
 from transformers import AutoModelForQuestionAnswering, AutoTokenizer
+MAX_SEQUENCE_LENGTH = 512
 models = {
     "Base model": "bert-large-uncased-whole-word-masking-finetuned-squad",
     "Pruned model": "madlag/bert-large-uncased-wwm-squadv2-x2.63-f82.6-d16-hybrid-v1",
 def inference(model_name, context, question):
     tokenizer = AutoTokenizer.from_pretrained(models[model_name])
     if model_name == "Pruned ONNX Optimized FP16":
+        inputs = dict(
+            tokenizer(
+                question, context, return_tensors="np", max_length=MAX_SEQUENCE_LENGTH
+            )
+        )
         output, inference_time = run_ort_inference(model_name, inputs)
         answer_start_scores, answer_end_scores = torch.tensor(output[0]), torch.tensor(
             output[1]
         )
     else:
+        inputs = tokenizer(
+            question, context, return_tensors="pt", max_length=MAX_SEQUENCE_LENGTH
+        )
         output, inference_time = run_normal_hf(model_name, inputs)
         answer_start_scores, answer_end_scores = output