More Logits Than Tokens in Vocab

by calbors - opened Sep 22, 2024

Sep 22, 2024

The following snippet raises an error:

from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "LongSafari/hyenadna-large-1m-seqlen-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
assert model.vocab_size == len(tokenizer.get_vocab())

Was a different vocab during training?

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment