Thammarak's picture
Update README.md
eb26db1
metadata
widget:
  - text: ใครเป็นคนกล่าวถึง nlp
    context: >-
      การประมวลภาษาธรรมชาติ (Natural language processing - NLP)
      เป็นสาขาย่อยของภาษาศาสตร์ วิทยาการคอมพิวเตอร์ วิศวกรรมสารสนเทศ
      และปัญญาประดิษฐ์ ทำการศึกษาการปฏิสัมพันธ์ระหว่างภาษาคอมพิวเตอร์และภาษา
      (ธรรมชาติ) มนุษย์
      ในเชิงที่โปรแกรมคอมพิวเตอร์สามารถดำเนินการวิเคราะห์และแปลงข้อมูลภาษาธรรมชาติได้การประมวลภาษาธรรมชาติมีการกล่าวถึงในปี
      พ.ศ. 2493 โดยแอลัน ทัวริง
      นักวิทยาศาสตร์ชาวอังกฤษได้เสนอการทดสอบคอมพิวเตอร์หรือเครื่องจักรที่สามารถคิดหรือกระทำได้เหมือนมนุษย์
      ซึ่งวิธีการนั้นในปัจจุบันถูกเรียกว่าการทดสอบทัวริงในปัจจุบันการประมวลภาษาธรรมชาติมีการนิยมใช้ขั้นตอนการเรียนรู้เชิงคุณลักษณะและการเรียนรู้เชิงลึก[1][2]
      ที่สามารถให้ผลลัพธ์ที่ออกมาได้ดี ตัวอย่างเช่นในแบบจำลองภาษา[3]
      โดยได้มีการเปรียบเทียบกับวิธีการดั้งเดิมที่ใช้การประมวลผลภาษาธรรมชาติเชิงสถิติ
      หรือการประมวลผลตามกฎที่วางไว้
  - text: เฝิง เส้าเฟิง รับบทอะไรใน The Palace
    context: >-
      เฝิง เส้าเฟิง เฝิง เส้าเฟิง หรือ วิลเลี่ยม เฝิง (; ชื่อภาษาอังกฤษ: William
      Feng, Feng Shaofeng) เป็นนักแสดงที่มีชื่อเสียงจากเรื่อง 'White Vengeance'
      และ'Prince of Lan Ling 'เกิดเมื่อวันที่ 7 ตุลาคม ค.ศ. 1978ประวัติ ประวัติ.
      ดังเปรี้ยงปร้างเพียงชั่วคืน หลังจากกระโดดมารับบท 'องค์ชาย 8'
      ในซีรีส์เจาะเวลาทะลุมิติเรื่อง 'The Palace' คู่กับหยางมี่ในปี 2011
      จนตอนนี้เฝิงเส้าเฟิงกลายเป็นพระเอกที่ถูกพูดถึงมากที่สุดคนหนึ่งของวงการบันเทิง
      และกลายเป็นแบบฉบับของชายหนุ่มที่สาวๆ ใฝ่ฝันถึง
      เพราะนอกจากหน้าตาที่หล่อเหลาแล้ว ชาติตระกูลของเขาก็ยังไม่ธรรมดาอีกด้วย
      เฝิงเส้าเฟิง
      เป็นลูกชายหัวแก้วหัวแหวนของนักธุรกิจอุตสาหกรรมสิ่งทอรายใหญ่ของจีน
      ครอบครัวเขามีโรงงานตั้งอยู่ที่เวินโจว กว่างโจว และฝูโจว
      ทรัพย์สินโดยรวมทั้งสิ้นไม่ต่ำกว่าพันล้านหยวน
      และเขาก็เป็นทายาทเพียงคนเดียวของตระกูล
      แต่เพราะเฝิงเส้าเฟิงใฝ่ฝันที่จะเข้าสู่วงการบันเทิง
      จึงได้เลือกที่จะเรียนการแสดงที่มหาวิทยาลัย shanghai theatre academy
      หลังจากเรียนจบก็มีโอกาสคลุกคลีทำงานอยู่ในวงการบันเทิงมากว่า 10 ปี
      กระทั่งประสบความสำเร็จอย่างทุกวันนี้ แถมได้ข่าวว่าเขากำลังอินเลิฟอยู่กับ
      'หนีหนี' นางเอกเรื่อง 'Flowers Of War'
      หนังระดับรางวัลของผู้กำกับจางอี้โหมวอีกด้วยผลงานด้านภาพยนตร์ภาพยนตร์ละครโทรทัศน์
language:
  - th
datasets:
  - thaiqa_squad
pipeline_tag: question-answering

Wangchanberta For Question Answering

Pretraining Model: wangchanberta-base-att-spm-uncased.

This is the wangchanberta-base-att-spm-uncased model, fine-tuned using the thaiqa_squad dataset.

Souce code

https://github.com/tommyA8/wangchanBERTa-fined-tune-thaiqa_squad

Data cleaning

Remove HTML tags using BeautifulSoup and remove punctuation using string.punctuation.

from bs4 import BeautifulSoup
example = """<doc id="376583" url="https://th.wikipedia.org/wiki?curid=376583" title="ลูนา 1">
ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์
และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ</doc>"""
example = BeautifulSoup(example).get_text()
print(example)
#"ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ"
import string
punct = string.punctuation
no_punct = [char for char in example if char not in punct]
example = ''.join(no_punct)
print(example)
#"ลูนา 1 ลูนา 1 อี1 ซีรีส์ ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา ความฝัน เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์ และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ"