huseinzol05's picture
Update README.md
0c28e17 verified
|
raw
history blame
2.93 kB
metadata
library_name: transformers
tags: []

NanoT5 Small Malaysian Translation

Trained using 2048 context length on 6.8B tokens of translation dataset. This model also able to translate from localize text into standard text.

Still in training session, Wandb at https://wandb.ai/huseinzol05/nanot5-small-malaysian-cased-translation-v4?nw=nwuserhuseinzol05

Supported prefix

  1. 'terjemah ke Mandarin: '
  2. 'terjemah ke Tamil: '
  3. 'terjemah ke Jawa: '
  4. 'terjemah ke Melayu: '
  5. 'terjemah ke Inggeris: '
  6. 'terjemah ke johor: '
  7. 'terjemah ke kedah: '
  8. 'terjemah ke kelantan: '
  9. 'terjemah ke pasar Melayu: '
  10. 'terjemah ke melaka: '
  11. 'terjemah ke negeri sembilan: '
  12. 'terjemah ke pahang: '
  13. 'terjemah ke perak: '
  14. 'terjemah ke sabah: '
  15. 'terjemah ke sarawak: '
  16. 'terjemah ke terengganu: '
  17. 'terjemah ke Jawi: '
  18. 'terjemah ke Manglish: '
  19. 'terjemah ke pasar Mandarin: '

how to

from transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
model = T5ForConditionalGeneration.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')

strings = [
    'ak tak paham la',
    'Hi guys! I noticed semalam & harini dah ramai yang dapat cookies ni kan. So harini i nak share some post mortem of our first batch:',
    "Memanglah. Ini tak payah expert, aku pun tau. It's a gesture, bodoh.",
    'jam 8 di pasar KK memang org ramai ๐Ÿ˜‚, pandai dia pilih tmpt.',
    'Jadi haram jadah๐Ÿ˜€๐Ÿ˜ƒ๐Ÿคญ',
    'nak gi mana tuu',
    'Macam nak ambil half day',
    "Bayangkan PH dan menang pru-14. Pastu macam-macam pintu belakang ada. Last-last Ismail Sabri naik. That's why I don't give a fk about politics anymore. Sumpah dah fk up dah.",
]
all_special_ids = [0, 1, 2]
prefix = 'terjemah ke Melayu: '
input_ids = [{'input_ids': tokenizer.encode(f'{prefix}{s}{tokenizer.eos_token}', return_tensors='pt')[
    0]} for s in strings]
padded = tokenizer.pad(input_ids, padding='longest')
outputs = model.generate(**padded, max_length = 100)
tokenizer.batch_decode([[i for i in o if i not in all_special_ids] for o in outputs], 
                       spaces_between_special_tokens = False)

Output,

[' Saya tidak faham',
 ' Hi guys! Saya perasan semalam dan hari ini ramai yang menerima cookies. Jadi hari ini saya ingin berkongsi beberapa post mortem batch pertama kami:',
 ' Memanglah. Tak perlu pakar, saya juga tahu. Ini adalah satu isyarat, bodoh.',
 ' Orang ramai di pasar KK pada jam 8 pagi, mereka sangat pandai memilih tempat.',
 ' Jadi haram jadah ๐Ÿ˜€๐Ÿ˜ƒ๐Ÿคญ',
 ' Di mana kamu pergi?',
 ' Saya ingin mengambil separuh hari',
 ' Bayangkan PH dan menang PRU-14. Terdapat pelbagai pintu belakang. Akhirnya, Ismail Sabri naik. Itulah sebabnya saya tidak lagi bercakap tentang politik. Saya bersumpah sudah berputus asa.']