Upload README.md with huggingface_hub

#1
by lbourdois - opened
Files changed (1) hide show
  1. README.md +1 -44
README.md CHANGED
@@ -1,46 +1,3 @@
1
  ---
2
- tags:
3
- - question-generation
4
- language:
5
- - thai
6
- - th
7
- datasets:
8
- - NSC2018
9
- - wiki-documents-nsc
10
- - ThaiQACorpus-DevelopmentDataset
11
- widget:
12
- - text: "โรงเรียนบ้านขุนด่าน ตั้งอยู่ที่ขุนด่าน จ.นครนายก </s>"
13
- example_title: "Example 01"
14
- - text: "พลเอก ประยุทธ์ จันทร์โอชา (เกิด 21 มีนาคม พ.ศ. 2497) ชื่อเล่น ตู่ เป็นนักการเมืองและอดีตนายทหารบกชาวไทย </s>"
15
- example_title: "Example 02"
16
- - text: "วันที่ 1 กันยายน 2550 12:00 น. ตำรวจภูธรจ.บุรีรัมย์บุกตรวจยึดไม้แปรรูปหวงห้ามกว่า 80 แผ่น </s>"
17
- example_title: "Example 03"
18
- - text: "กรุงเทพมหานคร เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. </s>"
19
- example_title: "Example 04"
20
-
21
- license: mit
22
  ---
23
- [SuperAI Engineer Season 2](https://superai.aiat.or.th/) , [Machima](https://machchima.superai.me/)
24
-
25
- [Google's mT5](https://github.com/google-research/multilingual-t5) , [Pollawat](https://huggingface.co/Pollawat/mt5-small-thai-qg)
26
-
27
- ```python
28
- from transformers import T5Tokenizer, T5ForConditionalGeneration, T5Config
29
-
30
- model = T5ForConditionalGeneration.from_pretrained('SuperAI2-Machima/mt5-small-thai-qg-v2')
31
- tokenizer = T5Tokenizer.from_pretrained('SuperAI2-Machima/mt5-small-thai-qg-v2')
32
-
33
- source_text = 'บุกยึดไม้เถื่อน อดีต ส.ส.บุรีรัมย์ เตรียมสร้างคฤหาสน์ทรงไทย 1 กันยายน 2550 12:00 น. ตำรวจภูธรจ.บุรีรัมย์บุกตรวจยึดไม้แปรรูปหวงห้ามกว่า 80 แผ่น'
34
-
35
- print('Predicted Summary Text : ')
36
- tokenized_text = tokenizer.encode(source_text, return_tensors="pt").to(device)
37
- summary_ids = model.generate(tokenized_text,
38
- num_beams=4,
39
- no_repeat_ngram_size=2,
40
- max_length=50,
41
- early_stopping=True)
42
- output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
43
- print(output)
44
- #Predicted Summary Text :
45
- #answer: 80 แผ่น question: ตํารวจภูธรจ.บุรีรัมย์บุกตรวจยึดไม้แปรรูปหวงห้ามกว่ากี่แผ่น
46
- ```
 
1
  ---
2
+ language: th
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  ---