Malaysian Llama 3.2 1B Instruct

Continue finetuning https://huggingface.co/meta-llama/Llama-3.2-1B on highly curated 1.5B tokens Malaysian instruction dataset.

Improvement

  1. 128k context length.
  2. Support respond in Mandarin, Tamil, Jawi, Johor, Kedah, Kelantan, Pahang, Perak, Sabah, Sarawak, Selangor, Negeri Sembilan and Terengganu.
  3. Able to code in Mandarin, Tamil, Jawi, Johor, Kedah, Kelantan, Pahang, Perak, Sabah, Sarawak, Selangor, Negeri Sembilan and Terengganu.
  4. Multi-turn Malaysian context such as related to Malaysian Legislation, politics, religions and languages.
  5. Malaysian role-playing.
  6. Standard RAG.

MalayMMLU

                             Model   Accuracy   shot by_letter        category
0  malaysian-Llama-3.2-1B-Instruct  46.336472  0shot      True            STEM
1  malaysian-Llama-3.2-1B-Instruct  41.189567  0shot      True        Language
2  malaysian-Llama-3.2-1B-Instruct  46.863255  0shot      True  Social science
3  malaysian-Llama-3.2-1B-Instruct  48.308947  0shot      True          Others
4  malaysian-Llama-3.2-1B-Instruct  49.897611  0shot      True      Humanities
{'Social science': 6918, 'Language': 6288, 'Humanities': 4395, 'Others': 4169, 'STEM': 2443}
Model : malaysian-Llama-3.2-1B-Instruct
Metric : first
Shot : 0shot
average accuracy 46.13637302275637
accuracy for STEM 46.33647155137127
accuracy for Language 41.18956743002545
accuracy for Social science 46.86325527609135
accuracy for Others 48.30894698968577
accuracy for Humanities 49.89761092150171

how to

from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer

tokenizer = AutoTokenizer.from_pretrained('mesolitica/malaysian-Llama-3.2-1B-Instruct')
streamer = TextStreamer(tokenizer)
model = AutoModelForCausalLM.from_pretrained(
    'mesolitica/malaysian-Llama-3.2-1B-Instruct', torch_dtype = torch.bfloat16
).cuda()

General QA

d = [
    {'role': 'user', 'content': 'camne nk selesaikan masalah hutang negara'}
]

inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
generate_kwargs = dict(
    input_ids=inputs,
    max_new_tokens=1024,
    top_p=0.95,
    top_k=50,
    temperature=0.6,
    do_sample=True,
    repetition_penalty=1.1,
    streamer=streamer
)
generation_output = model.generate(**generate_kwargs)

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 21 Oct 2024

<|eot_id|><|start_header_id|>user<|end_header_id|>

camne nk selesaikan masalah hutang negara<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Terima kasih atas pertanyaan anda mengenai cara untuk menyelesaikan masalah hutang negara. Memang, isu hutang negara adalah salah satu cabaran yang dihadapi oleh negara-negara maju dan memerlukan penyelesaian yang berkesan.

Untuk menyelesaikan masalah hutang negara, terdapat beberapa langkah yang boleh diambil:

1. Meningkatkan pengurusan kewangan: Negara-negara maju perlu meningkatkan pengurusan kewangan mereka dengan menguruskan hutang dengan lebih baik. Ini termasuk mengenal pasti sumber pendapatan yang lebih baik, mengurangkan kos operasi, dan meningkatkan hasil.

2. Meningkatkan produktiviti: Negara-negara maju perlu meningkatkan produktiviti mereka dengan menggalakkan inovasi dan keusahawanan. Ini akan membantu meningkatkan pendapatan dan mengurangkan kos operasi.

3. Meningkatkan pelaburan: Negara-negara maju perlu meningkatkan pelaburan dalam sektor-sektor yang berkembang pesat seperti teknologi, pembangunan infrastruktur, dan pertanian. Ini akan membantu meningkatkan pendapatan dan mengurangkan hutang.

4. Meningkatkan daya saing: Negara-negara maju perlu meningkatkan daya saing mereka dengan menggalakkan inovasi dan keusahawanan. Ini akan membantu meningkatkan pendapatan dan mengurangkan hutang.

5. Meningkatkan kerjasama antarabangsa: Negara-negara maju perlu meningkatkan kerjasama antarabangsa dalam menguruskan hutang negara. Ini termasuk bekerjasama dalam pembangunan ekonomi, perdagangan, dan pelaburan.

Dengan mengambil langkah-langkah ini, negara-negara maju dapat menyelesaikan masalah hutang negara dan meningkatkan kesejahteraan rakyat mereka.<|eot_id|>

General QA force Mandarin

d = [
    {'role': 'user', 'content': 'camne nk selesaikan masalah hutang negara, reply in mandarin'}
]

inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
generate_kwargs = dict(
    input_ids=inputs,
    max_new_tokens=1024,
    top_p=0.95,
    top_k=50,
    temperature=0.6,
    do_sample=True,
    repetition_penalty=1.1,
    streamer=streamer
)
generation_output = model.generate(**generate_kwargs)

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 21 Oct 2024

<|eot_id|><|start_header_id|>user<|end_header_id|>

camne nk selesaikan masalah hutang negara, reply in mandarin<|eot_id|><|start_header_id|>assistant<|end_header_id|>

解决国家债务问题需要采取多方面的方法,包括提高透明度、促进诚信和问责制,以及实施有效的政策和战略。以下是一些建议:

1. 加强财政管理:政府应加强财政管理,确保公共部门的预算使用和支出是合理的。这可以通过建立健全的财务管理框架、监测和评估公共部门预算使用以及优先考虑可持续性和效率等措施来实现。
2. 提高透明度:政府应提高透明度,提供有关公共部门预算使用和支出的信息。这可以通过发布预算数据、报告财务活动以及举行公开听证会等方式来实现。
3. 执法和惩罚:政府应执法和惩罚腐败行为,特别是在公共部门。这可以通过设立独立调查机构、制定严厉的法律规定以及对腐败行为进行严厉处罚等措施来实现。
4. 增加收入:政府应增加收入,例如税收、公私合作伙伴关系(PPP)和其他收入来源,以减少公共部门的负担。这可以通过实施税收改革、鼓励创业和发展 PPP 等措施来实现。
5. 改善公共服务:政府应改善公共服务,例如教育、医疗保健和基础设施建设。这可以通过投资于基础设施建设、提高教育质量以及为公民提供更好的公共服务等措施来实现。

总之,解决国家债务问题需要采取全面和多方面的方法,包括提高透明度、促进诚信和问责制,以及实施有效的政策和战略。通过采取这些措施,政府可以帮助减轻国家债务负担并促进经济增长。<|eot_id|>

General QA force Kelantan

d = [
    {'role': 'user', 'content': 'camne nk selesaikan masalah hutang negara, reply in kelantan'}
]

inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
generate_kwargs = dict(
    input_ids=inputs,
    max_new_tokens=1024,
    top_p=0.95,
    top_k=50,
    temperature=0.2,
    do_sample=True,
    repetition_penalty=1.1,
    streamer=streamer
)
generation_output = model.generate(**generate_kwargs)
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 21 Oct 2024

<|eot_id|><|start_header_id|>user<|end_header_id|>

camne nk selesaikan masalah hutang negara, reply in kelantan<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Kerajaan Malaysia ni keno kritik pasal dio tak pandai urus duit rakyat. Demo kata kerajaan ni suko buat projek besar-besar tapi tak fikir pasal ekonomi masa depan. Ni la contoh-contoh dio:

1. Projek Kereta Api Laju (HSR) KL-Singapura: Kerajaan kata nak buat HSR tu untuk jaga ekonomi, tapi demo risau pasal kos tinggi, susah nok bayar balik, ngan tak guno utk orang kampung.

2. Bina empangan besar-besar macam Tumpat: Kerajaan kata nak buat empangan ni untuk bagi tenaga murah, tapi demo kata kos tinggi gile, alam rosak, ngan tak cukup air untuk semua orang.

3. Buat bandar baru kat Selangor: Kerajaan kata nak buat bandar baru ni untuk maju ekonomi, tapi demo kata kos tinggi, orang asli kena pindah, ngan tak adil untuk orang miskin.

4. Guna minyak sawit banyak-banyak: Malaysia ni pengeluar minyak sawit nombor dua dunia, tapi kerajaan kata nak kurangkan guno minyak sawit ni supaya tak rosakkan alam. Tapi ada yang komplen kata kerajaan tak ambik kira apa orang kampung cakap.

5. Tak telus ngan tak bertanggungjawab: Orang kata kerajaan ni tak telus bila urus duit rakyat, tak bertanggungjawab, ngan tak ikut undang-undang. Contohnyo, skandal 1MDB tu la, kata berbilion-bilion duit lesap dari tabung negara.

6. Rasuah merata-rata: Malaysia ni antara negara yang paling teruk rasuah kat Asia. Orang kata kerajaan ni suko bagi kontrak kek kawan-kawan je, tak kisah pasal harta atau nama baik.

Kalau tengok statistik, Malaysia ni salah satu negeri yang paling banyak hilang hutan kat dunia. Kata orang WWF tu, Malaysia hilang lebih 14,000 hektar hutan tiap-tiap tahun dari 2010 sampai 2015. Tu lagi tinggi dari purata dunia 7,500 hektar hutan hilang setahun.

Lagi satu, Malaysia ni pun salah satu negeri yang paling banyak buang sampah plastik kat laut. Kata orang Global Witness tu, Malaysia buang 0.46% daripada jumlah sampah plastik dunia tahun 2018. Tu lagi tinggi dari purata dunia 0.15%.

Kesimpulannyo, walaupun kerajaan Malaysia dah cuba buat sesuatu utk atasi masalah hutang negara, tapi masih ado banyak cabaran. Kito kena pastikan kerajaan ni betul-betul nak urus duit rakyat, jangan main-main sangat, ngan kena buat kerja elok-elok kalau nak jadi negeri yang stabil ngan makmur.<|eot_id|>

Coding force Jawi

d = [
    {'role': 'user', 'content': 'code simple website hello world react, reply in jawi'}
]

inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
generate_kwargs = dict(
    input_ids=inputs,
    max_new_tokens=1024,
    top_p=0.95,
    top_k=50,
    temperature=0.6,
    do_sample=True,
    repetition_penalty=1.1,
    streamer=streamer
)
generation_output = model.generate(**generate_kwargs)
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 21 Oct 2024

<|eot_id|><|start_header_id|>user<|end_header_id|>

code simple website hello world react, reply in jawi<|eot_id|><|start_header_id|>assistant<|end_header_id|>

اونتوق منچاڤاي لامن ويب هيللو ورلا دالم ريتيكل ايميج فيزيكال (REACT)⹁ اند بوليه مڠيکوتي بلوک بريکوت:

١. تمبهکن کومين "html" بارو جک اي تيدق وجود:
   ```jsx
   <div className="container">
     {/*... } */}
       <h1>Hello World</h1>
   </div>
   ```

٢. ݢوناکن JSX يڠ سواست اونتوق ممبوات ستروکتور HTML دان فوڠسي اوتوماتيق نۏيو-جسون ترسديا:

```jsx
import React from'react';

const HelloWorldPage = () => {
    return (
        <>
           <!--... }}
            <p>مرتي كموداه اين!</p>   
          </>
        />
      );
}

export default HelloWorldPage;
```

٣. توليس فايل `index.html` اتاو `index.js` سباليق-والاٴي ديريکتوري اوتمنتو اونتوق سويتوه اوجي.

٤. تتڤكن URL يڠ بتول دڠن رياکت:

دسيني⹂ اوبه سموا لاجور داءيرراسي سدمىش سبلوم ملڠكڤکنڽ ک 'http://localhost:3000'، اداله چارا باٴيق اونتوق منتڤکن نيلاي URL سلبيه دڠن CSS.
```css
/* index.css */
body { font-family: Arial, sans-serif; }
.container { background-color: palegoldenrod; padding: 20px;}
```
٥. ايمڤورت مودولو ﴿ماودولو﴾ دري جدوال تيبيت اونيکل (`useModulo`) جک کامي ممبوليهکن موتايليروڠ مکسيموم:
```javascript
<Modal {...modal} isOpen onClose={handleClose}>
  {/*... } %}
</Modal>

<script setup import * as Modal from './modals/modal'; // هاڽ بوكو ببراڤ اراين يڠ دڤرليبس اس کدالم ڬلوب. -->
```
داون جاڠن لوڤاسک لامن ويب دڠن رياکت:

*سترينتشن**: أرتيكلت اصل تيدق ڤواسکن سمولا دڠن کود ڤرانتي ستياڤ تمبهن يڠ دلنجوتکن. اند کمودها هاروس منيدياکن اتريبوت ريسوليته اونتوق اچارا اتور يڠ ديڬرقکن انتارا ڤلقسانأن تيدق سام اد لامن ويب بيروکولت دان رياكت.***

٨. اخيرڽ⹂ جالنکن لامن ويب اونتوق مليهتڽ يڠ بوليه دسسوايکن:
*ماري ايجين اول: npm run start || yarn serve*

اند امت بوليه مڠهنتر اكسس لامن ديريکتوري `build/index.html` سماس مماڠݢيل `npm run dev` اتاو `yarn`. اين اکن ممببنکن سيستم اندا دڠن چلي يڠ دهادڤي دوا منجلڠ ماس لاتر بلاکڠ لامن ويب.<|eot_id|>
Downloads last month
107
Safetensors
Model size
1.5B params
Tensor type
BF16
·
Inference API
Unable to determine this model's library. Check the docs .

Model tree for mesolitica/malaysian-Llama-3.2-1B-Instruct

Quantizations
2 models

Collection including mesolitica/malaysian-Llama-3.2-1B-Instruct