Thammarak's picture
Update README.md
3cee6b1
|
raw
history blame
8.29 kB
---
widget:
- text: "ใครเป็นคนกล่าวถึง nlp"
context: "การประมวลภาษาธรรมชาติ (Natural language processing - NLP) เป็นสาขาย่อยของภาษาศาสตร์ วิทยาการคอมพิวเตอร์ วิศวกรรมสารสนเทศ และปัญญาประดิษฐ์ ทำการศึกษาการปฏิสัมพันธ์ระหว่างภาษาคอมพิวเตอร์และภาษา (ธรรมชาติ) มนุษย์ ในเชิงที่โปรแกรมคอมพิวเตอร์สามารถดำเนินการวิเคราะห์และแปลงข้อมูลภาษาธรรมชาติได้การประมวลภาษาธรรมชาติมีการกล่าวถึงในปี พ.ศ. 2493 โดยแอลัน ทัวริง นักวิทยาศาสตร์ชาวอังกฤษได้เสนอการทดสอบคอมพิวเตอร์หรือเครื่องจักรที่สามารถคิดหรือกระทำได้เหมือนมนุษย์ ซึ่งวิธีการนั้นในปัจจุบันถูกเรียกว่าการทดสอบทัวริงในปัจจุบันการประมวลภาษาธรรมชาติมีการนิยมใช้ขั้นตอนการเรียนรู้เชิงคุณลักษณะและการเรียนรู้เชิงลึก[1][2] ที่สามารถให้ผลลัพธ์ที่ออกมาได้ดี ตัวอย่างเช่นในแบบจำลองภาษา[3] โดยได้มีการเปรียบเทียบกับวิธีการดั้งเดิมที่ใช้การประมวลผลภาษาธรรมชาติเชิงสถิติ หรือการประมวลผลตามกฎที่วางไว้"
- text: "เฝิง เส้าเฟิง รับบทอะไรใน The Palace"
context: "เฝิง เส้าเฟิง เฝิง เส้าเฟิง หรือ วิลเลี่ยม เฝิง (; ชื่อภาษาอังกฤษ: William Feng, Feng Shaofeng) เป็นนักแสดงที่มีชื่อเสียงจากเรื่อง 'White Vengeance' และ'Prince of Lan Ling 'เกิดเมื่อวันที่ 7 ตุลาคม ค.ศ. 1978ประวัติ ประวัติ. ดังเปรี้ยงปร้างเพียงชั่วคืน หลังจากกระโดดมารับบท 'องค์ชาย 8' ในซีรีส์เจาะเวลาทะลุมิติเรื่อง 'The Palace' คู่กับหยางมี่ในปี 2011 จนตอนนี้เฝิงเส้าเฟิงกลายเป็นพระเอกที่ถูกพูดถึงมากที่สุดคนหนึ่งของวงการบันเทิง และกลายเป็นแบบฉบับของชายหนุ่มที่สาวๆ ใฝ่ฝันถึง เพราะนอกจากหน้าตาที่หล่อเหลาแล้ว ชาติตระกูลของเขาก็ยังไม่ธรรมดาอีกด้วย เฝิงเส้าเฟิง เป็นลูกชายหัวแก้วหัวแหวนของนักธุรกิจอุตสาหกรรมสิ่งทอรายใหญ่ของจีน ครอบครัวเขามีโรงงานตั้งอยู่ที่เวินโจว กว่างโจว และฝูโจว ทรัพย์สินโดยรวมทั้งสิ้นไม่ต่ำกว่าพันล้านหยวน และเขาก็เป็นทายาทเพียงคนเดียวของตระกูล แต่เพราะเฝิงเส้าเฟิงใฝ่ฝันที่จะเข้าสู่วงการบันเทิง จึงได้เลือกที่จะเรียนการแสดงที่มหาวิทยาลัย shanghai theatre academy หลังจากเรียนจบก็มีโอกาสคลุกคลีทำงานอยู่ในวงการบันเทิงมากว่า 10 ปี กระทั่งประสบความสำเร็จอย่างทุกวันนี้ แถมได้ข่าวว่าเขากำลังอินเลิฟอยู่กับ 'หนีหนี' นางเอกเรื่อง 'Flowers Of War' หนังระดับรางวัลของผู้กำกับจางอี้โหมวอีกด้วยผลงานด้านภาพยนตร์ภาพยนตร์ละครโทรทัศน์"
language:
- th
datasets:
- thaiqa_squad
pipeline_tag: question-answering
---
# Wangchanberta For Question Answering
Pretraining Model: [wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased).
This is the wangchanberta-base-att-spm-uncased model, fine-tuned using the thaiqa_squad dataset.
## Data cleaning
Remove HTML tags using BeautifulSoup and remove punctuation using string.punctuation.
```python
from bs4 import BeautifulSoup
example = """<doc id="376583" url="https://th.wikipedia.org/wiki?curid=376583" title="ลูนา 1">
ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์
และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ</doc>"""
example = BeautifulSoup(example).get_text()
print(example)
#"ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ"
```
```
import string
punct = string.punctuation
no_punct = [char for char in example if char not in punct]
example = ''.join(no_punct)
print(example)
#"ลูนา 1 ลูนา 1 อี1 ซีรีส์ ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา ความฝัน เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์ และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ"
```
https://github.com/tommyA8/wangchanBERTa-fined-tune-thaiqa_squad