preechanon's picture
Update README.md
cfdbe75 verified
metadata
tags:
  - summarization
  - mT5
language:
  - th
widget:
  - text: >-
      ผมกินตับหมูดิบแล้วหมดสติไป พอฟื้นอีกทีในต่างโลกดันกลายเป็นหมูซะงั้น!
      คนที่ช่วยผมเอาไว้คือเจส สาวน้อยผู้อ่านใจคนได้ อู๊ด! น่ารัก!
      ระดับสายตาหมูทำให้เห็นอะไรสีขาวบริสุทธิ์แวบๆ แจ่มเลย... “เอ่อ
      ฉันได้ยินเสียงในใจของคุณนะคะ…” ฉิบแล้ว! ความมักมากรั่วไหลหมด!
      แม้ว่าชีวิตประสาหมูที่มีเด็กสาวผู้อ่อนโยนคอยดูแลจะไม่เลว
      ผมก็ตัดสินใจมุ่งหน้าสู่นครหลวงพร้อมกับเจสเพื่อหาทางกลับเป็นมนุษย์
      การเดินทางแสนรื่นรมย์จึงเริ่มต้นขึ้น...
      แต่ไหงเราถึงถูกตามล่าเอาชีวิตล่ะเนี่ย!?
    example_title: Novel
  - text: >-
      พริ้ง คนเริงเมือง, ผลิตโดยบริษัท มีเดีย สตูดิโอ ร่วมกับ ,นีโน่ บราเดอร์ส,
      ที่ตอนนี้เดินทางมาถึงตอนอวสานแล้ว โดยวันนี้ถึงตอนที่, พริ้ง
      (จั๊กจั่น–อคัมย์สิริ), ฆ่าสามีที่ 6 ,หลวงเสนาะ, ตายไปเรียบร้อย
      ก็ถึงคราวที่จะทำตามใจตัวเองด้วยการอ่อย ,เปรมฤทัย (โตนนท์),
      ลูกชายคนเดียวของ ,หลวงเสนาะ,
      ให้กลายมาเป็นสามีของตัวเองสมใจอยากเสียที,งานนี้สกิลการอ่อยมาเต็ม
      เริ่มจากเดินมาหา, เปรมฤทัย,
      ที่ห้องก่อนจะบอกว่าไม่สามารถทำใจให้เลิกรักได้เลย
      จนมาถึงวันนี้วันที่สามารถเปิดใจได้แล้ว วันที่เราจะรักกันได้แล้ว
      ทำไมต้องห้ามใจอีก, เปรมฤทัย,
      ได้ยินแบบนี้ก็หวั่นไหวคล้อยตามไม่ห้ามใจปล่อยตัวให้ความเสน่หาเข้าครอบงำ,ฉากนี้
      ผกก. ,บุ๋ม–รัญญา, ยกกองไปถ่ายทำที่บ้านท่าไม้ จ.สมุทรสงคราม
      ก่อนเริ่มถ่ายจริง ,บุ๋ม, เรียกทั้ง, จั๊กจั่น, และ ,โตนนท์, มาทำสมาธิ
      และบิ้วท์ให้ทั้งคู่เข้าใจในความต้องการที่ทั้งตัวละคร ,พริ้ง, และ
      ,เปรมฤทัย, ต้องการปลดปล่อยออกมา เมื่อทั้งคู่เข้าใจบทแล้วเริ่มถ่ายจริง
      ,จั๊กจั่น, เล่นเต็มที่ไม่ยั้ง
      พรั่งพรูความรู้สึกที่มีออกมาพร้อมน้ำตาเรียกความสงสาร
      ก่อนจะโน้มจูบกันอย่างดูดดื่ม งานนี้จูบจริงไม่ใช้สแตนด์อินใดๆ
      ติดตามชมฉากแซ่บทิ้งทวน คืนวันพฤหัสบดีนี้ ทางช่อง 7.,ติดตามอ่านนิยายเรื่อง
      พริ้ง คนเริงเมือง ได้ที่นี่
    example_title: Thai movie
  - text: >-
      หนุ่มใหญ่วัย 49 ปี เสียชีวิตคาบ้านย่านปากเกร็ด สภาพมีเลือดออกปากกองใหญ่
      ข้างศพมีไซริงค์ฉีดยา เพื่อนบอกมาหาที่บ้าน เห็นว่าฉีดไอซ์ไป 2 เข็ม
      ก่อนคลุ้มคลั่งทำลายข้าวของ ล้มคว่ำหน้าแน่นิ่ง     ,เวลา 22.00 น. วันที่ 6
      ส.ค. ร.ต.ท.พันธ์พงศ์ ภูริวัฒนพงศ์ รอง สว.(สอบสวน) สภ.ปากเกร็ด จ.นนทบุรี
      รับแจ้งมีผู้เสียชีวิตภายในบ้านเลขที่ 77/489 หมู่ 1 หมู่บ้านดวงแก้ว
      ถนนติวานนท์ ต.บ้านใหม่ ไปสอบสวนพร้อมด้วย พ.ต.อ.พงศ์จักร ปรีชาการุณพงศ์
      ผกก. พ.ต.ท.นภธร วาชัยยุง รอง ผกก.ป สภ.ปากเกร็ด แพทย์สถาบันนิติวิทยาศาสตร์
      และเจ้าหน้าที่กู้ภัยมูลนิธิป่อเต็กตึ๊ง ,ที่เกิดเหตุเป็นบ้านทาวน์เฮาส์ 2
      ชั้น บนชั้น 2 พบศพ นายพงษ์ธนกร หรือเอ อุ่นทน อายุ 49 ปี เจ้าของบ้าน
      นอนคว่ำหน้าเสียชีวิตอยู่บนพื้น ในสภาพเลือดออกปาก
      ข้างศพพบไซริงค์ฉีดยาตกอยู่ ทางเจ้าหน้าที่จึงเก็บไว้เป็นหลักฐาน
      นอกจากนี้ข้าวของภายในห้องล้มระเนระนาดกระจัดกระจาย ,จากการสอบปากคำ นายเอ๋
      (นามสมมติ) อายุ 31 ปี ให้การว่า ตนเป็นเพื่อนกับผู้เสียชีวิต
      ก่อนเกิดเหตุได้เดินทางมาหาที่บ้านเห็นผู้เสียชีวิตฉีดยาไอซ์เข้าไป 2 เข็ม
      จากนั้นผู้เสียชีวิตมีอาการคลุ้มคลั่งทำลายข้าวของก่อนนอนคว่ำหน้าแน่นิ่งไป
      กระทั่งเสียชีวิตในที่สุด
      เบื้องต้นเจ้าหน้าที่คาดว่าสาเหตุการเสียชีวิตน่าจะเกิดจากการเสพยาเกินขนาด
      อย่างไรก็ตามจะได้สอบสวนหาสาเหตุที่แท้จริงอีกครั้ง
    example_title: Crime news
inference:
  parameters:
    min_length: 40
    max_length: 140

mt5-base-thaisum

This repository contains the finetuned mT5-base model for Thai sentence summarization. The architecture of the model is based on mT5 model and fine-tuned on text-summarization pairs in Thai.

Example

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

tokenizer = AutoTokenizer.from_pretrained("preechanon/mt5-base-thaisum-text-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("preechanon/mt5-base-thaisum-text-summarization")
new_input_string = "ข้อความที่ต้องการ"
input_ = tokenizer(new_input_string, truncation=True, max_length=1024, return_tensors="pt")
with torch.no_grad():
    preds = model.generate(
        input_['input_ids'].to('cpu'),
        num_beams=15,
        num_return_sequences=1,
        no_repeat_ngram_size=1,
        remove_invalid_values=True,
        max_length=140,
    )

summary = tokenizer.decode(preds[0], skip_special_tokens=True)
summary

Score

  • Rouge1: 0.488931
  • Rouge2: 0.309732
  • Rougel: 0.425490
  • Rougelsum: 0.444359

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-04
  • train_batch_size: 8
  • eval_batch_size: 1
  • seed: 42
  • optimizer: AdamW with betas=(0.9,0.999), epsilon=1e-08 and weight_decay=0.1
  • warmup step: 5000
  • lr_scheduler_type: linear
  • num_epochs: 6
  • gradient_accumulation_steps: 4

Framework versions

  • Transformers 4.36.1
  • Pytorch 2.1.2

Resource Funding

NSTDA Supercomputer center (ThaiSC) and the National e-Science Infrastructure Consortium for their support of computer facilities.