eval_loss = nan perplexity = tensor(nan)