viktor-enzell's picture
Added a 4-gram language model based on a 40M token social media corpus.
c877ba5
{"labels": ["", "<s>", "</s>", "\u2047", " ", "T", "E", "A", "N", "R", "S", "I", "L", "D", "O", "M", "K", "G", "U", "V", "F", "H", "\u00c4", "\u00c5", "P", "\u00d6", "B", "J", "C", "Y", "X", "W", "Z", "\u00c9", "Q", "8", "2", "5", "9", "1", "6", "7", "3", "4", "0", "'"], "is_bpe": false}