|
--- |
|
widget: |
|
- text: "ใครเป็นคนกล่าวถึง nlp" |
|
context: "การประมวลภาษาธรรมชาติ (Natural language processing - NLP) เป็นสาขาย่อยของภาษาศาสตร์ วิทยาการคอมพิวเตอร์ วิศวกรรมสารสนเทศ และปัญญาประดิษฐ์ ทำการศึกษาการปฏิสัมพันธ์ระหว่างภาษาคอมพิวเตอร์และภาษา (ธรรมชาติ) มนุษย์ ในเชิงที่โปรแกรมคอมพิวเตอร์สามารถดำเนินการวิเคราะห์และแปลงข้อมูลภาษาธรรมชาติได้การประมวลภาษาธรรมชาติมีการกล่าวถึงในปี พ.ศ. 2493 โดยแอลัน ทัวริง นักวิทยาศาสตร์ชาวอังกฤษได้เสนอการทดสอบคอมพิวเตอร์หรือเครื่องจักรที่สามารถคิดหรือกระทำได้เหมือนมนุษย์ ซึ่งวิธีการนั้นในปัจจุบันถูกเรียกว่าการทดสอบทัวริงในปัจจุบันการประมวลภาษาธรรมชาติมีการนิยมใช้ขั้นตอนการเรียนรู้เชิงคุณลักษณะและการเรียนรู้เชิงลึก[1][2] ที่สามารถให้ผลลัพธ์ที่ออกมาได้ดี ตัวอย่างเช่นในแบบจำลองภาษา[3] โดยได้มีการเปรียบเทียบกับวิธีการดั้งเดิมที่ใช้การประมวลผลภาษาธรรมชาติเชิงสถิติ หรือการประมวลผลตามกฎที่วางไว้" |
|
- text: "เฝิง เส้าเฟิง รับบทอะไรใน The Palace" |
|
context: "เฝิง เส้าเฟิง เฝิง เส้าเฟิง หรือ วิลเลี่ยม เฝิง (; ชื่อภาษาอังกฤษ: William Feng, Feng Shaofeng) เป็นนักแสดงที่มีชื่อเสียงจากเรื่อง 'White Vengeance' และ'Prince of Lan Ling 'เกิดเมื่อวันที่ 7 ตุลาคม ค.ศ. 1978ประวัติ ประวัติ. ดังเปรี้ยงปร้างเพียงชั่วคืน หลังจากกระโดดมารับบท 'องค์ชาย 8' ในซีรีส์เจาะเวลาทะลุมิติเรื่อง 'The Palace' คู่กับหยางมี่ในปี 2011 จนตอนนี้เฝิงเส้าเฟิงกลายเป็นพระเอกที่ถูกพูดถึงมากที่สุดคนหนึ่งของวงการบันเทิง และกลายเป็นแบบฉบับของชายหนุ่มที่สาวๆ ใฝ่ฝันถึง เพราะนอกจากหน้าตาที่หล่อเหลาแล้ว ชาติตระกูลของเขาก็ยังไม่ธรรมดาอีกด้วย เฝิงเส้าเฟิง เป็นลูกชายหัวแก้วหัวแหวนของนักธุรกิจอุตสาหกรรมสิ่งทอรายใหญ่ของจีน ครอบครัวเขามีโรงงานตั้งอยู่ที่เวินโจว กว่างโจว และฝูโจว ทรัพย์สินโดยรวมทั้งสิ้นไม่ต่ำกว่าพันล้านหยวน และเขาก็เป็นทายาทเพียงคนเดียวของตระกูล แต่เพราะเฝิงเส้าเฟิงใฝ่ฝันที่จะเข้าสู่วงการบันเทิง จึงได้เลือกที่จะเรียนการแสดงที่มหาวิทยาลัย shanghai theatre academy หลังจากเรียนจบก็มีโอกาสคลุกคลีทำงานอยู่ในวงการบันเทิงมากว่า 10 ปี กระทั่งประสบความสำเร็จอย่างทุกวันนี้ แถมได้ข่าวว่าเขากำลังอินเลิฟอยู่กับ 'หนีหนี' นางเอกเรื่อง 'Flowers Of War' หนังระดับรางวัลของผู้กำกับจางอี้โหมวอีกด้วยผลงานด้านภาพยนตร์ภาพยนตร์ละครโทรทัศน์" |
|
language: |
|
- th |
|
datasets: |
|
- thaiqa_squad |
|
pipeline_tag: question-answering |
|
--- |
|
# Wangchanberta For Question Answering |
|
Pretraining Model: [wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased). |
|
|
|
This is the wangchanberta-base-att-spm-uncased model, fine-tuned using the thaiqa_squad dataset. |
|
## Data cleaning |
|
Remove HTML tags using BeautifulSoup and remove punctuation using string.punctuation. |
|
```python |
|
from bs4 import BeautifulSoup |
|
example = """<doc id="376583" url="https://th.wikipedia.org/wiki?curid=376583" title="ลูนา 1"> |
|
ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์ |
|
และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ</doc>""" |
|
example = BeautifulSoup(example).get_text() |
|
print(example) |
|
#"ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ" |
|
``` |
|
``` |
|
import string |
|
punct = string.punctuation |
|
no_punct = [char for char in example if char not in punct] |
|
example = ''.join(no_punct) |
|
print(example) |
|
#"ลูนา 1 ลูนา 1 อี1 ซีรีส์ ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา ความฝัน เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์ และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ" |
|
``` |
|
|
|
https://github.com/tommyA8/wangchanBERTa-fined-tune-thaiqa_squad |