wannaphong commited on
Commit
ff09f98
1 Parent(s): 3869848

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +62 -2
README.md CHANGED
@@ -15,9 +15,69 @@ This model is based on [WangchanX Fine-tuning Pipeline](https://github.com/viste
15
 
16
  GitHub: [WangchanX Fine-tuning Pipeline](https://github.com/vistec-AI/WangchanX).
17
 
18
-
19
  License: [Meta Llama 3 Community License](https://llama.meta.com/llama3/license/)
20
 
21
  Meta Llama 3 is licensed under the Meta Llama 3 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.
22
 
23
- Example inference: https://colab.research.google.com/drive/1mqGurDF4GFApp8FOB7SispmlKsdebbAi?usp=sharing
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
15
 
16
  GitHub: [WangchanX Fine-tuning Pipeline](https://github.com/vistec-AI/WangchanX).
17
 
 
18
  License: [Meta Llama 3 Community License](https://llama.meta.com/llama3/license/)
19
 
20
  Meta Llama 3 is licensed under the Meta Llama 3 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.
21
 
22
+
23
+ ## Inference Example
24
+
25
+ Run in [Colab](https://colab.research.google.com/drive/1mqGurDF4GFApp8FOB7SispmlKsdebbAi?usp=sharing)
26
+
27
+ ### Prepare your model and tokenizer:
28
+
29
+ ```python
30
+ import torch
31
+ from transformers import AutoTokenizer, AutoModelForCausalLM
32
+
33
+ # Model path
34
+ path = "airesearch/LLaMa3-8b-WangchanX-sft-Demo"
35
+
36
+ # Device
37
+ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
38
+
39
+ # Load tokenizer and model
40
+ tokenizer = AutoTokenizer.from_pretrained(path, use_fast=False)
41
+ model = AutoModelForCausalLM.from_pretrained(path, device_map="auto")
42
+ ```
43
+
44
+ ### Define chat messages:
45
+
46
+ ```python
47
+ messages = [
48
+ {"role": "user", "content": "ลิเก กับ งิ้ว ต่างกันอย่างไร"},
49
+ ]
50
+ ```
51
+
52
+ ### Tokenize chat messages:
53
+
54
+ ```python
55
+ tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(device)
56
+ print(tokenizer.decode(tokenized_chat[0]))
57
+ ```
58
+
59
+ <details close>
60
+ <summary>Output: </summary>
61
+ <br>
62
+ <pre lang="markdown">
63
+ <|user|>
64
+ ลิเก กับ งิ้ว ต่างกันอย่างไร<|end_of_text|>
65
+ <|assistant|></pre>
66
+ </details>
67
+
68
+ ### Generate responses:
69
+
70
+ ```python
71
+ outputs = model.generate(tokenized_chat, max_length=2048)
72
+ print(tokenizer.decode(outputs[0]))
73
+ ```
74
+
75
+ <details close>
76
+ <summary>Output: </summary>
77
+ <br>
78
+ <pre lang="markdown">
79
+ <|user|>
80
+ ลิเก กับ งิ้ว ต่างกันอย่างไร<|end_of_text|>
81
+ <|assistant|>
82
+ ก่อนอื่นเราต้องรู้ความหมายของคำทั้งสอง คำว่า ลิเก เป็นศิลปะการแสดงแบบดั้งเดิมในประเทศไทย ส่วนคำว่า งิ้วน่าจะเป็นการนำภาษาไทยมาแปลจากคำว่า อินโดปีเลีย (indoplea) ซึ่งเป็นชื่อเรียกดนตรีที่มีต้นกำเนิดจากรัฐอุตตาร์ประเทศ ในอินเดีย และได้แพร่หลายไปยังเอเชียตะวันออกเฉียงใต้ โดยเฉพาะสาธารณรัฐประชาชนจีนและเวียดนาม จึงทำให้เกิดคำว่า งิ้วด้วย แต่ทุกคนไม่รู้ว่ามันก็คืออะไรจริง ๆ แล้ว มันมีความแตกต่างกันมาก เพราะถ้าไปถามชาวบ้านบางแห่งอาจจะบอกว่าเป็นอีกประเภทหนึ่งของเพลงโบราณหรือเพลงพื้นเมือง หรือถ้าพูดตามหลักทางประวัติศาสตร์ก็จะกล่าวว่านั่นคือ การขับร้องเพลงที่ใช้รูปแบบการประสานเสียงแบบฮินดู-ซิกห์วัล ที่ผสมผสานระหว่างภาษาอังกฤษ ภาษาจีนกลาง ภาษาพม่า และภาษาทางเหนือกับภาษาลาว รวมถึงภาษากลุ่มออสเตรโลไนว์ในอดีต ดังนั้นตอนนี้คุณสามารถสรุปได้อย่างแม่นยำว่าสองอย่างเหล่านี้แตกต่างกันอย่างไร: ลิเก คือ ศิลปะการแสดงที่มีมายาวนานกว่า 100 ปีในประเทศไทย เช่น ลิเกล้านนา, ลิเกตลุง, ลิเกล้อ ฯลฯ ขณะที่ งิ้ว หมายถึง เพลงประสานเสียงที่มีรากเหง้าของวงการเพลงคลาสสิคในอินเดีย และแพร่กระจายในเอเชียตะวันตกเฉียงใต้เป็นสิ่งแรกๆ หลังจากการเผยแผ่ศาสนายุคแรกๆ นอกจากนี้ ยังมีกา���รวมแนวเพลงเพื่อรวมเข้ากับการเต้นร่วมสมัยและบทละครที่มีอิทธิพลจากวรรณกรรมจีน<|end_of_text|></pre>
83
+ </details>