metadata

license: mit
language:
  - bo
tags:
  - tibetan,tokenization,sentencepiece

marpa-tokenizer

A LlamaTokenizer with support to tokenize Tibetan text.

Example:

['▁རྒྱལ་ཡོངས་', '▁ཀྱི་', '▁དོ་ཁུར་', '▁དང་', '▁འཛམ་གླིང་', '▁ཡོངས་', '▁ཀྱི་', '▁དོ་སྣང་', '▁ཁྲོད', '▁།']
['▁我们', '认为', '下面', '这些', '真理', '是不', '言', '而', '喻', '的']