SR commited on
Commit
5bfb829
·
verified ·
1 Parent(s): 597da60

update_readme

Browse files
Files changed (1) hide show
  1. README.md +81 -0
README.md CHANGED
@@ -1,3 +1,84 @@
1
  ---
2
  license: cc-by-nc-3.0
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: cc-by-nc-3.0
3
+ language:
4
+ - th
5
+ - en
6
  ---
7
+
8
+
9
+ # PolyLM-13b-WangchanX-sft-Demo
10
+
11
+ Built with PolyLM-13b (Fine tuning with Qlora)
12
+
13
+ This model is based on [WangchanX Fine-tuning Pipeline](https://github.com/vistec-AI/WangchanX).
14
+
15
+ GitHub: [WangchanX Fine-tuning Pipeline](https://github.com/vistec-AI/WangchanX).
16
+
17
+ License: cc-by-nc-3.0
18
+
19
+ Demo: [Colab](https://colab.research.google.com/github/vistec-AI/WangchanX/blob/main/notebooks/Inference_WangchanX_pipeline.ipynb)
20
+
21
+ Train WangchanX pipeline: [Colab](https://colab.research.google.com/github/vistec-AI/WangchanX/blob/main/notebooks/Train_WangchanX_pipeline.ipynb)
22
+
23
+
24
+ ## Inference Example
25
+
26
+ Run in [Colab](https://colab.research.google.com/github/vistec-AI/WangchanX/blob/main/notebooks/Inference_WangchanX_pipeline.ipynb)
27
+
28
+ ### Prepare your model and tokenizer:
29
+
30
+ ```python
31
+ import torch
32
+ from transformers import AutoTokenizer, AutoModelForCausalLM
33
+
34
+ # Model path
35
+ path = "airesearch/PolyLM-13b-WangchanX-sft-Demo"
36
+
37
+ # Device
38
+ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
39
+
40
+ # Load tokenizer and model
41
+ tokenizer = AutoTokenizer.from_pretrained(path, use_fast=False)
42
+ model = AutoModelForCausalLM.from_pretrained(path, device_map="auto")
43
+ ```
44
+
45
+ ### Define chat messages:
46
+
47
+ ```python
48
+ messages = [
49
+ {"role": "user", "content": "ลิเก กับ งิ้ว ต่างกันอย่างไร"},
50
+ ]
51
+ ```
52
+
53
+ ### Tokenize chat messages:
54
+
55
+ ```python
56
+ tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(device)
57
+ print(tokenizer.decode(tokenized_chat[0]))
58
+ ```
59
+
60
+ <details close>
61
+ <summary>Output: </summary>
62
+ <br>
63
+ <pre lang="markdown">
64
+ <|user|>
65
+ รู้จักประเทศไทยไหม</s>
66
+ <|assistant|></pre>
67
+ </details>
68
+
69
+ ### Generate responses:
70
+
71
+ ```python
72
+ outputs = model.generate(tokenized_chat, max_length=2048)
73
+ print(tokenizer.decode(outputs[0]))
74
+ ```
75
+
76
+ <details close>
77
+ <summary>Output: </summary>
78
+ <br>
79
+ <pre lang="markdown">
80
+ <|user|>
81
+ รู้จักประเทศไทยไหม</s>
82
+ <|assistant|>
83
+ ขอแนะนำให้ทราบว่า ประเทศไทยเป็นดินแดนที่มีความหลากหลายทางวัฒนธรรมและมีประเพณีที่งดงามมากมาย มีอารยะธรรมในอดีตที่มีมาตั้งแต่สมัยก่อนพุทธกาล เป็นศูนย์กลางของชาวเขาเผ่าต่างๆ ในเอเชีย และยังคงสภาพความรุ่งโรจน์ได้อย่างไม่น่าเชื่อด้วยการพัฒนาเศรษฐกิจที่เติบโตรวดเร็วที่สุดในภูมิภาคนี้ นอกจากนั้นแล้วก็ยังได้รับเลือกให้จัดการแข่งขันกีฬาซีเกมส์ครั้งล่าสุดเมื่อปี พ.ศ.2560 ซึ่งถือเป็นเหรียญเงินในการแข่งขันระดับอื่นอีกด้วย โดยปัจจุบันนี้มีการลงประชามติเพื่อรับรองการเข้าร่วมสหประชาชาติด้านมนุษยชน (ICCPR) เพื่อจะทำให้สามารถใช้สิทธิมนุษยชนตามอนุสัญญาสหประชาชาติเกี่ยวกับสิทธิมนุษยนชนหรือ ICCPR ได้เต็มอัตราส่วนเท่ากันกับนักศึกษาทั่วไป แต่เนื่องจากผู้คนจำนวนน้อยกว่า จึงไม่มีผลต่อการสมัครเรียน ครู หรือแม้กระทั้งคุณครูเองต้องยอมเหนื่อยกายใจทำงานเพิ่มขึ้นเพราะเด็กเล็กจำนวนหนึ่งเกิดใหม่ทุกวันโดยเฉพาะช่วงที่เปิดเทอมใหญ่ อยากฝึกงานทำวิทยาลัยที่สองเลยค่ะ ขอบพระคุณครับ</s></pre>
84
+ </details>