Full Parameter Finetuning 1.1B 32768 context length Mistral on Malaysian text

README at https://github.com/mesolitica/malaya/tree/5.1/session/mistral#1b-32768-context-length

WandB, https://wandb.ai/mesolitica/fpf-mistral-1b-hf-32k?workspace=user-husein-mesolitica

how-to

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

TORCH_DTYPE = 'bfloat16'
nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=getattr(torch, TORCH_DTYPE)
)

tokenizer = AutoTokenizer.from_pretrained('mesolitica/mistral-1.1b-32768-fpf')
model = AutoModelForCausalLM.from_pretrained(
    'mesolitica/mistral-1.1b-32768-fpf',
    use_flash_attention_2 = True,
    quantization_config = nf4_config
)

prompt = '<s>Soalan: KWSP tu apa?\nJawapan:'
inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
generate_kwargs = dict(
    inputs,
    max_new_tokens=512,
    top_p=0.95,
    top_k=50,
    temperature=0.9,
    do_sample=True,
    num_beams=1,
    repetition_penalty=1.05,
)
r = model.generate(**generate_kwargs)
print(tokenizer.decode(r[0]))
<s> Soalan: KWSP tu apa?
Jawapan: Ya,KWSP tulis kepada ahli-ahli yang memohon bantuan berkenaan, sama ada mereka ini berada dalam simpanan persendirian atau tidak. TERBESAR: Apa itu? Jawapannya mudah: Sekiranya terdapat ahli yang mempunyai pendapatan RM500 setahun, jumlahnya telah meningkat kepada RM2,248,260 iaitu kenaikan sebanyak 10% atau 15%, maka apa yang perlu difikirkan adalah bertentangan dengan fikiran ahli-ahli dan bukannya ahli-ahli berkenaan? Saya ingin penjelasan jika ada soalan yang lebih baik dan lebih lanjut supaya jawapan saya lebih menjimatkan masa kerana kami semua berkumpul di Pejabat Perhubungan Awam di Wangsa Maju yang berhampiran. Jika ada bantuan, ia boleh membantu meringankan beban kewangan kami, tetapi masalahnya adalah tidak seperti di atas dan ia memerlukan sumber kewangan yang lebih banyak. Terima kasih. RUJUKAN Ahmad Fauzi Abdul Hamid (2011). The Malaysian Kwsp: How does it make sense to ask for money? In Money Mind Study. Retrieved on September 3, 2015 from http://www.malaysian-banking.org/malaysia-solution-to-money/index.php http://ms.wikipedia.org/wiki/Special_Effect_on_The_Malaysian_Kwsp_(Money_Solution).htm http://www.malaysian-financial-services.org/cms_images/RujiandariKWSP_Money_Solution.pdf</s>
prompt = '<s>Soalan: kenapa malaysia suka makan nasi lemak?\nJawapan:'
inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
generate_kwargs = dict(
    inputs,
    max_new_tokens=512,
    top_p=0.95,
    top_k=50,
    temperature=0.9,
    do_sample=True,
    num_beams=1,
    repetition_penalty=1.05,
)
r = model.generate(**generate_kwargs)
print(tokenizer.decode(r[0]))
<s> Soalan: kenapa malaysia suka makan nasi lemak?
Jawapan: Dari : 11-30 September 2015 (Selasa) 4. Saya bersetuju kebanyakan warga Jepun makan nasi lemak adalah berasal dari Malaysia. Apa yang saya amalkan sehingga mereka tidak keluar? Soalan: Mengikut penerangan, rakyat Malaysia biasa buat nasi lemak di tempat baru 2006 ialah berasal dari Jepun sehingga ke Korea sehingga Vietnam dan Amerika Syarikat. Walaubagaimanapun, disebabkan oleh itu, sotong tidak dihidangkan setiap hari di restoran Jepun. Kenapa ini berlaku? Jawapan: Ya, kita rasa inilah sebabnya nasi lemak di Jepun yang dimakan bersama gulai ayam di restoran makanan laut mahupun tuna. Tidak mengira jantina dan umur. Tidak mengambil makanan lain dalam rasa seperti nasi lemak dan roti canai di luar negara? Sila berikan jawapan dan cadangan. Jawapan: Waalaikumussalam wr.wbt. Dato' Ngeh Koo Ham, Pengerusi Eksekutif The Summit and Other Rising Star Foundation, menyatakan bahawa: Sumbangan sosial daripada rakyat Malaysia untuk menjadikan Malaysia sebuah negara majmuk yang benar, bukan saja mampu menjana lebih pendapatan negara tetapi juga mewujudkan pekerjaan kepada rakyat kita. Sehubungan itu, pihak Jepun akan mencadangkan kalendar pemerintahan kukuh untuk membolehkan rakyat Malaysia mendapat makanan, daging lembu dan bahan kambing sebagai rakan dan keluarga. Sila
prompt = '<s>Soalan: kerajaan Madani bagus x?\nJawapan:'
inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
generate_kwargs = dict(
    inputs,
    max_new_tokens=512,
    top_p=0.95,
    top_k=50,
    temperature=0.9,
    do_sample=True,
    num_beams=1,
    repetition_penalty=1.05,
)
r = model.generate(**generate_kwargs)
print(tokenizer.decode(r[0]))
<s> Soalan: kerajaan Madani bagus x?
Jawapan: Iya! Cukup baik. Akan tetapi, untuk mencapai sasaran itu, perlulah ada dua perkara. Pertama, ia merangkumi keperluan keselamatan dan pendapatan rakyat yang lebih tinggi terutama dalam menghadapi keadaan ekonomi. Kedua, ia berkaitan dengan pembelajaran sepanjang hayat, iaitu keperluan untuk memenuhi keperluan jangka panjang dan bukannya keperluan asas. Hal ini penting supaya kita mampu mendepani cabaran-cabaran ini di masa akan datang. Saya hendak beritahu sama ada sasaran itu mencapai matlamatnya ataupun mungkin lebih menarik lagi di masa akan datang. Satu hal lagi, ia juga penting. Dengan mendadakan sistem perbankan menerusi sistem Tangguh Penggunaan Maybank2u yang dikelola oleh Menteri di Jabatan Perdana Menteri, Kementerian Kewangan pada masa yang sama, ia menggalakkan sistem perbankan menerusi institusi kewangan swasta (seperti DuitNow), akan melengkapkan kemudahan penggunaan yang disediakan oleh Bank Negara Malaysia, kewangan dan mata wang digital (money, money, and money), supaya kita boleh meningkatkan tahap sistem kewangan dan sebagainya. Apa yang penting, perlu diingat bahawa kesannya sosial yang begitu besar iaitu tidak lama lagi akan membawa kesan yang besar kepada negara kita akhirnya. Apa yang saya teliti, ia merupakan satu fasa yang sangat penting.</s>
Downloads last month
28
Safetensors
Model size
1.13B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Collection including mesolitica/mistral-1.1b-32768-fpf