SuperAI2-Machima commited on
Commit
dc3ddce
1 Parent(s): 4ff5c54

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +42 -0
README.md ADDED
@@ -0,0 +1,42 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - Yes No question-generation
4
+ language:
5
+ - thai
6
+ - th
7
+ datasets:
8
+ - NSC2018
9
+ - wiki-documents-nsc
10
+ - ThaiQACorpus-DevelopmentDataset
11
+ widget:
12
+ - text: "วันที่ 1 กันยายน 2550 12:00 น. ตำรวจภูธรจ.บุรีรัมย์บุกตรวจยึดไม้แปรรูปหวงห้ามกว่า 80 แผ่น"
13
+ example_title: "Example 01"
14
+ - text: "พลเอก ประยุทธ์ จันทร์โอชา (เกิด 21 มีนาคม พ.ศ. 2497) ชื่อเล่น ตู่ เป็นนักการเมืองและอดีตนายทหารบกชาวไทย"
15
+ example_title: "Example 02"
16
+
17
+ license: mit
18
+ ---
19
+ [SuperAI Engineer Season 2](https://superai.aiat.or.th/) , [Machima](https://machchima.superai.me/)
20
+
21
+ [Google's mT5](https://github.com/google-research/multilingual-t5) , [Pollawat](https://huggingface.co/Pollawat/mt5-small-thai-qg)
22
+
23
+ ```python
24
+ from transformers import T5Tokenizer, T5ForConditionalGeneration, T5Config
25
+
26
+ model = T5ForConditionalGeneration.from_pretrained('SuperAI2-Machima/mt5-small-thai-qg')
27
+ tokenizer = T5Tokenizer.from_pretrained('SuperAI2-Machima/mt5-small-thai-qg')
28
+
29
+ source_text = 'บุกยึดไม้เถื่อน อดีต ส.ส.บุรีรัมย์ เตรียมสร้างคฤหาสน์ทรงไทย 1 กันยายน 2550 12:00 น. ตำรวจภูธรจ.บุรีรัมย์บุกตรวจยึดไม้แปรรูปหวงห้ามกว่า 80 แผ่น'
30
+
31
+ print('Predicted Summary Text : ')
32
+ tokenized_text = tokenizer.encode(source_text, return_tensors="pt").to(device)
33
+ summary_ids = model.generate(tokenized_text,
34
+ num_beams=4,
35
+ no_repeat_ngram_size=2,
36
+ max_length=50,
37
+ early_stopping=True)
38
+ output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
39
+ print(output)
40
+ #Predicted Summary Text :
41
+ #answer: 80 แผ่น question: ตํารวจภูธรจ.บุรีรัมย์บุกตรวจยึดไม้แปรรูปหวงห้ามกว่ากี่แผ่น
42
+ ```