du-kang/custom4
- This is T5 model for korean text summarization.
Finetuned with a dataset. Specifically, it is described below. - Korean Book Summarization Dataset
Usage (HuggingFace Transformers)
import nltk
nltk.download('punkt')
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model = AutoModelForSeq2SeqLM.from_pretrained('du-kang/custom4')
tokenizer = AutoTokenizer.from_pretrained('du-kang/custom4')
input_text ="""
λλ²μμ νλ¨
κ°. κ΄λ ¨ λ²λ¦¬
1) κ°) κΈμ μ±κΆκ³Ό κ°μ΄ κΈλΆμ λ΄μ©μ΄ κ°λΆμΈ μ±κΆμ 곡λμμλλ κ²½μ° μμκ°μμ λμμ λΉμ°ν λ²μ μμλΆμ λ°λΌ 곡λμμμΈλ€μκ² λΆν νμ¬ κ·μνκ³ (λλ²μ 2006. 7. 24. μ 2005μ€83 κ²°μ λ± μ°Έμ‘°), νΉλ³μμ΅μ΄ μ‘΄μ¬νκ±°λ κΈ°μ¬λΆμ΄ μΈμ λλ λ± νΉλ³ν μ¬μ μ΄ μλ κ²½μ°μλ κ°λΆμ±κΆλ μμμ¬μ°λΆν μ λμμ΄ λ μ μλ€(λλ²μ 2016. 5. 4. μ 2014μ€122 κ²°μ λ± μ°Έμ‘°).
μ£Όμμ μ£Όμνμ¬μ μ£Όμ£Ό μ§μλ₯Ό νμ°½νλ κ²μΌλ‘μ κΈμ μ±κΆκ³Ό κ°μ κ°λΆμ±κΆμ΄ μλλ―λ‘ κ³΅λμμνλ κ²½μ° λ²μ μμλΆμ λ°λΌ λΉμ°ν λΆν νμ¬ κ·μνλ κ²μ΄ μλλΌ κ³΅λμμμΈλ€μ΄ μ΄λ₯Ό μ€κ³΅μ νλ λ²λ₯ κ΄κ³λ₯Ό νμ±νκ³ (λλ²μ 2003. 5. 30. μ κ³ 2003λ€7074 νκ²° μ°Έμ‘°), μ£Όν곡κΈμ μ μ²ν κΆλ¦¬μ λΆλ¦¬λ μ μλ μ²μ½μ μΆμ κ°μ
μκ° μ¬λ§νμ¬ κ³΅λμμμ΄ μ΄λ£¨μ΄μ§ κ²½μ° κ³΅λμμμΈμ΄ μ²μ½μ μΆ μκΈκ³μ½μ ν΄μ§νλ €λ©΄ κΈμ΅κΈ°κ΄κ³Ό μ¬μ΄μ λ€λ₯Έ λ΄μ©μ νΉμ½μ΄ μλ€λ λ±μ νΉλ³ν μ¬μ μ΄ μλ ν μ μμ΄ ν΄μ§μ μμ¬νμλ₯Ό νμ¬μΌ νλ€(λλ²μ 2022. 7. 14. μ κ³ 2021λ€294674 νκ²° μ°Έμ‘°).
λ) γμλ³Έμμ₯κ³Ό κΈμ΅ν¬μμ
μ κ΄ν λ²λ₯ γ(μ΄ν βμλ³Έμμ₯λ²βμ΄λΌ νλ€)μ λ°λ₯Έ ν¬μμ νμ μμ΅μ¦κΆμ μ§ν©ν¬μμ
μκ° μ ν ννμ μ§ν©ν¬μκΈ°κ΅¬μΈ ν¬μμ ν(μ 9μ‘° μ 18ν μ 1νΈ)μ μ€μ νκ³ κ·Έ μμ΅κΆμ νμνκΈ° μνμ¬ μ΄λ₯Ό κ· λ±νκ² λΆν νμ¬ λ¬΄μ‘λ©΄ κΈ°λͺ
μμΌλ‘ λ°νν κ²(μ 189μ‘° μ 1ν, μ 4ν, μ 4μ‘° μ 5ν)μΌλ‘μ, μμ΅μλ μ νμλ³Έμ μνκ³Ό μ΄μ΅μ λΆλ°° λ±μ κ΄νμ¬ μμ΅μ¦κΆμ μ’μμ λ°λΌ κ· λ±ν κΆλ¦¬λ₯Ό κ°μ§λ€(μ 189μ‘° μ 2ν). μ΄λ¬ν μμ΅μ¦κΆμ μλ³Έμμ₯λ²μ κΈμ΅ν¬μμνμ ν μ’
λ₯μ΄κ³ (μ 3μ‘° μ 1ν, μ 2ν μ 1νΈ, μ 4μ‘° μ 2ν μ 3νΈ, μ 5ν), μ§ν©ν¬μμ¦κΆμ ν΄λΉνλ―λ‘(μ 9μ‘° μ 21ν), ν¬μμκ° μΈμ λ μ§ ν맀λ₯Ό μ²κ΅¬ν μ μμΌλ©°(μ 235μ‘° μ 1ν), λ€λ₯Έ λ²λ Ήμ΄λ μ§ν©ν¬μκ·μ½ λ±μ λ€λ₯Έ μ ν¨μ΄ μλ μ΄μ μμ΅μ¦κΆ κ³μ’μ μλ μμ΅μ¦κΆ μ€ μΌλΆ μ’μμ λν ν맀μ²κ΅¬λ κ°λ₯νλ€.
MMFλ μλ³Έμμ₯λ²κ³Ό κ·Έ νμ λ²λ Ήμ λ°λΌ μ§ν©ν¬μμ¬μ° μ λΆλ₯Ό λ¨κΈ°κΈμ΅μνμ ν¬μνμ¬μΌ νκ³ μ΄μ©μ μ νλ λ°λ λ¨κΈ°κΈμ΅μ§ν©ν¬μ기ꡬ(μ 229μ‘° μ 5νΈ)λ₯Ό μλ―Ένλ€. λ¨κΈ°κΈμ΅μ§ν©ν¬μ기ꡬμ κ΄νμ¬λ ν¬μ κ°λ₯ν λ¨κΈ°κΈμ΅μνμ μ μ©λ±κΈ, μμ‘΄ λ§κΈ°, μ΄μ©λ°©λ² λ±μ΄ μ격ν κ·μ¨λκ³ [μλ³Έμμ₯λ² μνλ Ή μ 241μ‘°, γκΈμ΅ν¬μμ
κ·μ γ(κΈμ΅μμν κ³ μ) μ 7-14μ‘°λΆν° μ 7-20μ‘°κΉμ§ λ±], ν맀μ²κ΅¬λ₯Ό λ°μ ν¬μ맀맀μ
μ λλ ν¬μμ€κ°μ
μκ° μΌμ ν λ²μμμλ μκΈ°μ κ³μ°μΌλ‘λ μ§ν©ν¬μμ¦κΆμ μ·¨λν μ μλ μμΈκ° μΈμ λλ©°(μλ³Έμμ₯λ² μ 235μ‘° μ 6ν λ¨μ, κ°μ λ² μνλ Ή μ 254μ‘° μ 2ν μ 1νΈ), λλΆλΆμ μ§ν©ν¬μκ·μ½μμλ ν맀λκΈ μ§κΈκΈ°μΌμ΄ λ¨κΈ°κ°μΌλ‘ μ ν΄μ Έ μλ€. ν¬μμμ μμ€μ μ΅μννκ³ ν¬μκΈμ μ μν νμλ₯Ό μνμ¬ λ§λ ¨λ μ΄λ¬ν κ·μ¨λ€μ ν¬μμλ€μ΄ λ¨κΈ°κΈμ΅μ§ν©ν¬μ기ꡬμ μ§ν©ν¬μμ¦κΆμ μκΈκ³Ό μ μ¬νκ² μΈμνλ μ΄μ μ΄κΈ°λ νλ€.
λ€) κ°λΆμ±κΆμ΄ 곡λμμλ κ²½μ°μ λ²λ₯ ν¨κ³Ό, μ΄λ¬ν λ²λ₯ κ΄κ³ λλ λ²λ₯ ν¨κ³Όκ° μμμ¬μ°λΆν μ λ―ΈμΉλ μν₯, μλ³Έμμ₯λ²μ ν¬μμ νμ μμ΅κΆμ νμνλ μμ΅μ¦κΆμ μ’μλ₯Ό λ¨μλ‘ λΆν νλ§€κ° κ°λ₯νκ³ ν¬μμκ° μΈμ λ μ§ ν맀νμ¬ λ¨κΈ°κ° λ΄μ ν맀λκΈμ μλ Ήν¨μΌλ‘μ¨ μμ½κ² ν¬μκΈμ νμν μ μλλ‘ κ³ μλμλ€λ νΉμ±, λ¨κΈ°κΈμ΅μ§ν©ν¬μ기ꡬμ λνμ¬ ν¬μμμ μμ€μ μ΅μννκ³ ν¬μκΈμ μ μν νμλ₯Ό μν΄ λ§λ ¨λ νΉλ³ν κ·μ¨κ³Ό μ΄μ λ°νμ λ ν¬μμλ€μ μΈμ λ±μ μ’
ν©νλ©΄, μλ³Έμμ₯λ²μ ν¬μμ ν νν λ¨κΈ°κΈμ΅μ§ν©ν¬μ기ꡬμ μμ΅κΆμ νΉλ³ν μ¬μ μ΄ μλ ν μμκ°μμ λμμ λΉμ°ν λ²μ μμλΆμ λ°λ₯Έ μμ΅μ¦κΆμ μ’μλλ‘ κ³΅λμμμΈλ€μκ² λΆν νμ¬ κ·μνλ€.
ν¬μμ νμ μμ΅κΆμ μκ²°κΆμ΄λ μ₯λΆΒ·μλ₯ μ΄λκΆ λ±κ³Ό κ°μ λ¨μ²΄λ²μ μ±κ²©μ κΆλ¦¬λ κΆλ₯μ΄ ν¬ν¨λμ΄ μλ€λ μ (μλ³Έμμ₯λ² μ 91μ‘° μ 1ν, μ 186μ‘° μ 2ν, μ 190μ‘°)μ λ¨κΈ°κΈμ΅μ§ν©ν¬μ기ꡬμ κ΄νμ¬ κ·Έλ¬ν κΆλ¦¬λ κΆλ₯μ΄ κ°λ κΈ°λ₯κ³Ό μ€μμ±μ μ λμ λΉμΆμ΄ μμ κ°μ λΆν κ·μμ μΈμ νλ λ°μ λ°©ν΄κ° λμ§ μλλ€.
λΌ) λ€λ§ μμ΅μ¦κΆ λ°νκ³Ό ν맀μ μ΅μ λ¨μμΈ 1μ’ λ―Έλ§μ λν΄μκΉμ§ κΆλ¦¬λ₯Ό νμ¬νκ±°λ ν맀λ₯Ό μ²κ΅¬νλ κ²μ νμ©λ μ μλ€.
2) λν ν¬μμκ° μ§ν©ν¬μμ¦κΆμ ν맀λ₯Ό μ²κ΅¬νλ κ²½μ° μ§ν©ν¬μμ
μλ μλ³Έμμ₯λ² μ 236μ‘° μ 1νμ λ°λΌ μ°μ λλ κΈ°μ€κ°κ²©μΌλ‘ μ§ν©ν¬μμ¦κΆμ ν맀νμ¬μΌ νκ³ , ν¬μ맀맀μ
μ λλ ν¬μμ€κ°μ
μλ μ§ν©ν¬μμ¦κΆμ ν맀 λ° ν맀μ
무μ κ·Έμ λΆμλ μ
무λ₯Ό μννλ―λ‘ ν¬μμμ ν맀μ²κ΅¬κ° μλ κ²½μ° μ§ν©ν¬μμ
μμκ² ν맀μ μν κ²μ μꡬνκ³ κ·Έλ‘λΆν° μλ Ήν ν맀λκΈμ ν¬μμμκ² μ§κΈν μ무λ₯Ό λΆλ΄νλ€(λλ²μ 2018. 8. 30. μ κ³ 2017λ€281213 νκ²° λ± μ°Έμ‘°).
λ. μ΄ μ¬κ±΄μ νλ¨
μμ λ³Έ λ²λ¦¬μ λ°λ₯΄λ©΄, λ§μΈμ΄ 보μ νλ μ΄ μ¬κ±΄ κ° μμ΅μ¦κΆμ΄ νμνλ μμ΅κΆμ 곡λμμμΈ μ€ 1μΈμΈ μκ³ μκ² λ²μ μμλΆμ λ°λΌ λΆν νμ¬ κ·μνμλ€κ³ λ΄μ΄ νλΉνλ€. μ΄μ λ€λ₯Έ μ μ μμ μμμΈμ μμμ§λΆλ³ μ²κ΅¬κ° λΆκ°λ₯νλ€κ³ λ³Έ μμ¬νκ²°μλ μλ³Έμμ₯λ²μ ν¬μμ ν μμ΅κΆμ κ°λΆμ μ±κ²© λ±μ κ΄νμ¬ λ²λ¦¬λ₯Ό μ€ν΄νμ¬ νκ²°μ μν₯μ λ―ΈμΉ μλͺ»μ΄ μλ€. μ΄λ₯Ό μ§μ νλ μ·¨μ§μ μκ³ μ΄μ μ£Όμ₯μ μ΄μ μλ€.
ννΈ νμ‘ ν μμ¬μΌλ‘μλ μμ λ³Έ λ²λ¦¬μ λ°λΌ μκ³ κ° ν맀λ₯Ό μ²κ΅¬ν μ’μμ 1μ’ λ―Έλ§μ΄ ν¬ν¨λμ΄ μλμ§λ₯Ό νμΈνκ³ , μκ³ μ ν맀μ²κ΅¬μΌκ³Ό μ΄λ₯Ό κΈ°μ΄λ‘ μ§ν©ν¬μκ·μ½μ ꡬ체μ μΈ λ΄μ©μ λ°λΌ μ°μ λ κΈ°μ€κ°κ²© λ±μ μ¬λ¦¬νμ¬ μ΄μ λ°λΌ νλ¨νμ¬μΌ ν¨μ λ§λΆμ¬ λλ€.
3. κ²°λ‘
κ·Έλ λ€λ©΄ μμ¬νκ²°μ μκ³ ν¨μ λΆλΆ μ€ MMF κ³μ’ κ΄λ ¨ μ²κ΅¬ λΆλΆμ νκΈ°νκ³ μ΄ λΆλΆ μ¬κ±΄μ λ€μ μ¬λ¦¬Β·νλ¨νλλ‘ μμ¬λ²μμ νμ‘νκΈ°λ‘ νμ¬, κ΄μ¬ λλ²κ΄μ μΌμΉλ μ견μΌλ‘ μ£Όλ¬Έκ³Ό κ°μ΄ νκ²°νλ€.
"""
input_ids = tokenizer.encode("summarize: " + input_text, return_tensors="pt", add_special_tokens=True)
summary_ids = model.generate(input_ids, max_length=150, length_penalty=2.0, num_beams=4, early_stopping=True)
summary_text = tokenizer.decode(summary_ids.squeeze(), skip_special_tokens=True)
print("summary >>>", summary_text)
>>>κΈμ μ±κΆκ³Ό κ°μ΄ κΈλΆμ λ΄μ©μ΄ κ°λΆμΈ μ±κΆμ 곡λμμλλ κ²½μ° μμκ°μμ λμμ λΉμ°ν λ²μ μμλΆμ λ°λΌ 곡λμμμΈλ€μκ² λΆν νμ¬ κ·μνκ³ νΉλ³ν μ¬μ μ΄ μλ κ²½μ°μλ κ°λΆμ±κΆλ μμμ¬μ°λΆν μ λμμ΄ λ μ μλ€.
- Downloads last month
- 0
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.