--- widget: - text: "ใครเป็นคนกล่าวถึง nlp" context: "การประมวลภาษาธรรมชาติ (Natural language processing - NLP) เป็นสาขาย่อยของภาษาศาสตร์ วิทยาการคอมพิวเตอร์ วิศวกรรมสารสนเทศ และปัญญาประดิษฐ์ ทำการศึกษาการปฏิสัมพันธ์ระหว่างภาษาคอมพิวเตอร์และภาษา (ธรรมชาติ) มนุษย์ ในเชิงที่โปรแกรมคอมพิวเตอร์สามารถดำเนินการวิเคราะห์และแปลงข้อมูลภาษาธรรมชาติได้การประมวลภาษาธรรมชาติมีการกล่าวถึงในปี พ.ศ. 2493 โดยแอลัน ทัวริง นักวิทยาศาสตร์ชาวอังกฤษได้เสนอการทดสอบคอมพิวเตอร์หรือเครื่องจักรที่สามารถคิดหรือกระทำได้เหมือนมนุษย์ ซึ่งวิธีการนั้นในปัจจุบันถูกเรียกว่าการทดสอบทัวริงในปัจจุบันการประมวลภาษาธรรมชาติมีการนิยมใช้ขั้นตอนการเรียนรู้เชิงคุณลักษณะและการเรียนรู้เชิงลึก[1][2] ที่สามารถให้ผลลัพธ์ที่ออกมาได้ดี ตัวอย่างเช่นในแบบจำลองภาษา[3] โดยได้มีการเปรียบเทียบกับวิธีการดั้งเดิมที่ใช้การประมวลผลภาษาธรรมชาติเชิงสถิติ หรือการประมวลผลตามกฎที่วางไว้" - text: "เฝิง เส้าเฟิง รับบทอะไรใน The Palace" context: "เฝิง เส้าเฟิง เฝิง เส้าเฟิง หรือ วิลเลี่ยม เฝิง (; ชื่อภาษาอังกฤษ: William Feng, Feng Shaofeng) เป็นนักแสดงที่มีชื่อเสียงจากเรื่อง 'White Vengeance' และ'Prince of Lan Ling 'เกิดเมื่อวันที่ 7 ตุลาคม ค.ศ. 1978ประวัติ ประวัติ. ดังเปรี้ยงปร้างเพียงชั่วคืน หลังจากกระโดดมารับบท 'องค์ชาย 8' ในซีรีส์เจาะเวลาทะลุมิติเรื่อง 'The Palace' คู่กับหยางมี่ในปี 2011 จนตอนนี้เฝิงเส้าเฟิงกลายเป็นพระเอกที่ถูกพูดถึงมากที่สุดคนหนึ่งของวงการบันเทิง และกลายเป็นแบบฉบับของชายหนุ่มที่สาวๆ ใฝ่ฝันถึง เพราะนอกจากหน้าตาที่หล่อเหลาแล้ว ชาติตระกูลของเขาก็ยังไม่ธรรมดาอีกด้วย เฝิงเส้าเฟิง เป็นลูกชายหัวแก้วหัวแหวนของนักธุรกิจอุตสาหกรรมสิ่งทอรายใหญ่ของจีน ครอบครัวเขามีโรงงานตั้งอยู่ที่เวินโจว กว่างโจว และฝูโจว ทรัพย์สินโดยรวมทั้งสิ้นไม่ต่ำกว่าพันล้านหยวน และเขาก็เป็นทายาทเพียงคนเดียวของตระกูล แต่เพราะเฝิงเส้าเฟิงใฝ่ฝันที่จะเข้าสู่วงการบันเทิง จึงได้เลือกที่จะเรียนการแสดงที่มหาวิทยาลัย shanghai theatre academy หลังจากเรียนจบก็มีโอกาสคลุกคลีทำงานอยู่ในวงการบันเทิงมากว่า 10 ปี กระทั่งประสบความสำเร็จอย่างทุกวันนี้ แถมได้ข่าวว่าเขากำลังอินเลิฟอยู่กับ 'หนีหนี' นางเอกเรื่อง 'Flowers Of War' หนังระดับรางวัลของผู้กำกับจางอี้โหมวอีกด้วยผลงานด้านภาพยนตร์ภาพยนตร์ละครโทรทัศน์" language: - th datasets: - thaiqa_squad pipeline_tag: question-answering --- # Wangchanberta For Question Answering Pretraining Model: [wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased). This is the wangchanberta-base-att-spm-uncased model, fine-tuned using the thaiqa_squad dataset. # Souce code https://github.com/tommyA8/wangchanBERTa-fined-tune-thaiqa_squad ## Data cleaning Remove HTML tags using BeautifulSoup and remove punctuation using string.punctuation. ```python from bs4 import BeautifulSoup example = """ ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์ และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ""" example = BeautifulSoup(example).get_text() print(example) #"ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ" ``` ``` import string punct = string.punctuation no_punct = [char for char in example if char not in punct] example = ''.join(no_punct) print(example) #"ลูนา 1 ลูนา 1 อี1 ซีรีส์ ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา ความฝัน เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์ และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ" ```