|
from model.tokenization_albert import FullTokenizer |
|
from model.modeling_albert import AlbertModel |
|
import torch |
|
|
|
content = 'ལས་ཁུངས་ཀྱི་ཏང་འཛུགས་སྐྱོང་གི་སྤུས་ཚད་ཕྱོགས་ཡོངས་ནས་མཐོར་གཏོང་བཅས་བྱེད་པའི་བྱེད་ཐབས་གལ་ཆེན་ཞིག་ཡིན་ལ།' |
|
tokenizer = FullTokenizer(vocab_file='tibetan-albert-syllable-base/vocab.txt', do_lower_case=False) |
|
token = content.split('་') |
|
print(token) |
|
token_ids = tokenizer.convert_tokens_to_ids(token) |
|
print(token_ids) |
|
token_ids = torch.LongTensor([token_ids]) |
|
|
|
albert_model = AlbertModel.from_pretrained('tibetan-albert-syllable-base') |
|
|
|
output = albert_model(input_ids=token_ids) |
|
print(output) |