import tiktoken | |
test_string = "האיש האחרון עלי אדמות ישב לבד בחדרו, כשלפתע נשמעה דפיקה בדלת" | |
print(f'Test string = "{test_string}"') | |
enc = tiktoken.get_encoding("cl100k_base") | |
encoded_text = enc.encode(test_string) | |
print(f'num of characters = {len(test_string)} encoded length = {len(encoded_text)} (cl100k_base)') | |
decoded_text = enc.decode(encoded_text) | |
assert decoded_text == test_string | |
enc = tiktoken.get_encoding("gpt2") | |
encoded_text = enc.encode(test_string) | |
print(f'num of characters = {len(test_string)} encoded length = {len(encoded_text)} (gpt2)') | |
decoded_text = enc.decode(encoded_text) | |
assert decoded_text == test_string | |
enc = tiktoken.get_encoding("gpt-hebrew-tokenizer") | |
encoded_text = enc.encode(test_string) | |
print(f'num of characters = {len(test_string)} encoded length = {len(encoded_text)} (gpt-hebrew-tokenizer)') | |
decoded_text = enc.decode(encoded_text) | |
assert decoded_text == test_string |