metadata
library_name: transformers
tags: []
NanoT5 Small Malaysian Translation
Trained using 2048 context length on 6.8B tokens of translation dataset. This model also able to translate from localize text into standard text.
Still in training session, Wandb at https://wandb.ai/huseinzol05/nanot5-small-malaysian-cased-translation-v4?nw=nwuserhuseinzol05
Supported prefix
'terjemah ke Mandarin: '
'terjemah ke Tamil: '
'terjemah ke Jawa: '
'terjemah ke Melayu: '
'terjemah ke Inggeris: '
'terjemah ke johor: '
'terjemah ke kedah: '
'terjemah ke kelantan: '
'terjemah ke pasar Melayu: '
'terjemah ke melaka: '
'terjemah ke negeri sembilan: '
'terjemah ke pahang: '
'terjemah ke perak: '
'terjemah ke sabah: '
'terjemah ke sarawak: '
'terjemah ke terengganu: '
'terjemah ke Jawi: '
'terjemah ke Manglish: '
'terjemah ke pasar Mandarin: '
how to
from transformers import AutoTokenizer, T5ForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
model = T5ForConditionalGeneration.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
strings = [
'ak tak paham la',
'Hi guys! I noticed semalam & harini dah ramai yang dapat cookies ni kan. So harini i nak share some post mortem of our first batch:',
"Memanglah. Ini tak payah expert, aku pun tau. It's a gesture, bodoh.",
'jam 8 di pasar KK memang org ramai ๐, pandai dia pilih tmpt.',
'Jadi haram jadah๐๐๐คญ',
'nak gi mana tuu',
'Macam nak ambil half day',
"Bayangkan PH dan menang pru-14. Pastu macam-macam pintu belakang ada. Last-last Ismail Sabri naik. That's why I don't give a fk about politics anymore. Sumpah dah fk up dah.",
]
all_special_ids = [0, 1, 2]
prefix = 'terjemah ke Melayu: '
input_ids = [{'input_ids': tokenizer.encode(f'{prefix}{s}{tokenizer.eos_token}', return_tensors='pt')[
0]} for s in strings]
padded = tokenizer.pad(input_ids, padding='longest')
outputs = model.generate(**padded, max_length = 100)
tokenizer.batch_decode([[i for i in o if i not in all_special_ids] for o in outputs],
spaces_between_special_tokens = False)
Output,
[' Saya tidak faham',
' Hi guys! Saya perasan semalam dan hari ini ramai yang menerima cookies. Jadi hari ini saya ingin berkongsi beberapa post mortem batch pertama kami:',
' Memanglah. Tak perlu pakar, saya juga tahu. Ini adalah satu isyarat, bodoh.',
' Orang ramai di pasar KK pada jam 8 pagi, mereka sangat pandai memilih tempat.',
' Jadi haram jadah ๐๐๐คญ',
' Di mana kamu pergi?',
' Saya ingin mengambil separuh hari',
' Bayangkan PH dan menang PRU-14. Terdapat pelbagai pintu belakang. Akhirnya, Ismail Sabri naik. Itulah sebabnya saya tidak lagi bercakap tentang politik. Saya bersumpah sudah berputus asa.']