metadata

library_name: transformers
tags: []

NanoT5 Small Malaysian Translation

Finetuned https://huggingface.co/mesolitica/nanot5-small-malaysian-cased using 2048 context length on 7B tokens of translation dataset.

This model able to translate from localize text into standard text.
This model able to reverse translate from standard to localize text, suitable for text augmentation.
This model able to translate code.
This model natively code switching.
This model maintain \n, \t, \r as it is.

Still in training session, Wandb at https://wandb.ai/huseinzol05/nanot5-small-malaysian-cased-translation-v4?nw=nwuserhuseinzol05

Supported prefix

'terjemah ke Mandarin: '
'terjemah ke Tamil: '
'terjemah ke Jawa: '
'terjemah ke Melayu: '
'terjemah ke Inggeris: '
'terjemah ke johor: '
'terjemah ke kedah: '
'terjemah ke kelantan: '
'terjemah ke pasar Melayu: '
'terjemah ke melaka: '
'terjemah ke negeri sembilan: '
'terjemah ke pahang: '
'terjemah ke perak: '
'terjemah ke sabah: '
'terjemah ke sarawak: '
'terjemah ke terengganu: '
'terjemah ke Jawi: '
'terjemah ke Manglish: '
'terjemah ke Banjar: '
'terjemah ke pasar Mandarin: '

how to

from transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
model = T5ForConditionalGeneration.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')

strings = [
    'ak tak paham la',
    'Hi guys! I noticed semalam & harini dah ramai yang dapat cookies ni kan. So harini i nak share some post mortem of our first batch:',
    "Memanglah. Ini tak payah expert, aku pun tau. It's a gesture, bodoh.",
    'jam 8 di pasar KK memang org ramai 😂, pandai dia pilih tmpt.',
    'Jadi haram jadah😀😃🤭',
    'nak gi mana tuu',
    'Macam nak ambil half day',
    "Bayangkan PH dan menang pru-14. Pastu macam-macam pintu belakang ada. Last-last Ismail Sabri naik. That's why I don't give a fk about politics anymore. Sumpah dah fk up dah.",
]
all_special_ids = [0, 1, 2]
prefix = 'terjemah ke Melayu: '
input_ids = [{'input_ids': tokenizer.encode(f'{prefix}{s}{tokenizer.eos_token}', return_tensors='pt')[
    0]} for s in strings]
padded = tokenizer.pad(input_ids, padding='longest')
outputs = model.generate(**padded, max_length = 100)
tokenizer.batch_decode([[i for i in o if i not in all_special_ids] for o in outputs])

Output,

[' Saya tidak faham',
 ' Hi guys! Saya perasan semalam dan hari ini ramai yang menerima cookies. Jadi hari ini saya ingin berkongsi beberapa post mortem batch pertama kami:',
 ' Memanglah. Tak perlu pakar, saya juga tahu. Ini adalah satu isyarat, bodoh.',
 ' Orang ramai di pasar KK pada jam 8 pagi, mereka sangat pandai memilih tempat.',
 ' Jadi haram jadah 😀😃🤭',
 ' Di mana kamu pergi?',
 ' Saya ingin mengambil separuh hari',
 ' Bayangkan PH dan menang PRU-14. Terdapat pelbagai pintu belakang. Akhirnya, Ismail Sabri naik. Itulah sebabnya saya tidak lagi bercakap tentang politik. Saya bersumpah sudah berputus asa.']

Input text can be any languages that speak in Malaysia, as long you use proper prefix, it should be able to translate to target language.