perplexity

Running

lvwerra HF Staff commited on Nov 1, 2022

Commit

0b4bc5a

1 Parent(s): 764f24b

Update Space (evaluate main: 9f0f888e)

Files changed (2) hide show

perplexity.py CHANGED Viewed

@@ -100,7 +100,9 @@ class Perplexity(evaluate.Metric):
             reference_urls=["https://huggingface.co/docs/transformers/perplexity"],
         )
-    def _compute(self, predictions, model_id, batch_size: int = 16, add_start_token: bool = True, device=None):
         if device is not None:
             assert device in ["gpu", "cpu", "cuda"], "device should be either gpu or cpu."
@@ -126,20 +128,20 @@ class Perplexity(evaluate.Metric):
             # assign one of the special tokens to also be the pad token
             tokenizer.add_special_tokens({"pad_token": existing_special_tokens[0]})
-        if add_start_token:
             # leave room for <BOS> token to be added:
             assert (
                 tokenizer.bos_token is not None
             ), "Input model must already have a BOS token if using add_start_token=True. Please use a different model, or set add_start_token=False"
-            max_tokenized_len = model.config.max_length - 1
         else:
-            max_tokenized_len = model.config.max_length
         encodings = tokenizer(
             predictions,
             add_special_tokens=False,
             padding=True,
-            truncation=True,
             max_length=max_tokenized_len,
             return_tensors="pt",
             return_attention_mask=True,

             reference_urls=["https://huggingface.co/docs/transformers/perplexity"],
         )
+    def _compute(
+        self, predictions, model_id, batch_size: int = 16, add_start_token: bool = True, device=None, max_length=None
+    ):
         if device is not None:
             assert device in ["gpu", "cpu", "cuda"], "device should be either gpu or cpu."
             # assign one of the special tokens to also be the pad token
             tokenizer.add_special_tokens({"pad_token": existing_special_tokens[0]})
+        if add_start_token and max_length:
             # leave room for <BOS> token to be added:
             assert (
                 tokenizer.bos_token is not None
             ), "Input model must already have a BOS token if using add_start_token=True. Please use a different model, or set add_start_token=False"
+            max_tokenized_len = max_length - 1
         else:
+            max_tokenized_len = max_length
         encodings = tokenizer(
             predictions,
             add_special_tokens=False,
             padding=True,
+            truncation=True if max_tokenized_len else False,
             max_length=max_tokenized_len,
             return_tensors="pt",
             return_attention_mask=True,

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-git+https://github.com/huggingface/evaluate@960dc92ef6a86e3b11d7b7276b4960135a3129b9
 torch
 torch
 transformers

+git+https://github.com/huggingface/evaluate@9f0f888eb455bc0952f467b1cab47716e3f04e83
 torch
 torch
 transformers