Update README.md
Browse files
README.md
CHANGED
@@ -26,6 +26,7 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
|
|
26 |
model = AutoModelForSeq2SeqLM.from_pretrained('eenzeenee/t5-base-korean-summarization')
|
27 |
tokenizer = AutoTokenizer.from_pretrained('eenzeenee/t5-base-korean-summarization')
|
28 |
|
|
|
29 |
sample = """
|
30 |
μλ
νμΈμ? μ°λ¦¬ (2νλ
)/(μ΄ νλ
) μΉκ΅¬λ€ μ°λ¦¬ μΉκ΅¬λ€ νκ΅μ κ°μ μ§μ§ (2νλ
)/(μ΄ νλ
) μ΄ λκ³ μΆμλλ° νκ΅μ λͺ» κ°κ³ μμ΄μ λ΅λ΅νμ£ ?
|
31 |
κ·Έλλ μ°λ¦¬ μΉκ΅¬λ€μ μμ κ³Ό 건κ°μ΄ μ΅μ°μ μ΄λκΉμ μ€λλΆν° μ μλμ΄λ λ§€μΌ λ§€μΌ κ΅μ΄ μ¬νμ λ λ보λλ‘ ν΄μ.
|
@@ -43,10 +44,10 @@ sample = """
|
|
43 |
μ΄λ»κ² μ¬λ¬κ°μ§ λ°©λ²μΌλ‘ μ½μκΉ μ°λ¦¬ 곡λΆν΄ 보λλ‘ ν΄μ. μ€λμ μ λμλΌ μ§μ/! μκ° λμμ΅λλ€ μμ μ λͺ©μ΄ λκ°μ? λ€ν° λ μ΄μμ λ€ν° λ .
|
44 |
λꡬλ λ€νλ λμμ΄λ λ€νλ μΈλλ μΉκ΅¬λ? λꡬλ λ€νλμ§ μ μλμ΄ μλ₯Ό μ½μ΄ μ€ ν
λκΉ νλ² μκ°μ ν΄λ³΄λλ‘ ν΄μ."""
|
45 |
|
46 |
-
inputs = [
|
47 |
|
48 |
|
49 |
-
inputs = tokenizer(inputs, max_length=
|
50 |
output = model.generate(**inputs, num_beams=3, do_sample=True, min_length=10, max_length=64)
|
51 |
decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
|
52 |
result = nltk.sent_tokenize(decoded_output.strip())[0]
|
|
|
26 |
model = AutoModelForSeq2SeqLM.from_pretrained('eenzeenee/t5-base-korean-summarization')
|
27 |
tokenizer = AutoTokenizer.from_pretrained('eenzeenee/t5-base-korean-summarization')
|
28 |
|
29 |
+
prefix = "summarize: "
|
30 |
sample = """
|
31 |
μλ
νμΈμ? μ°λ¦¬ (2νλ
)/(μ΄ νλ
) μΉκ΅¬λ€ μ°λ¦¬ μΉκ΅¬λ€ νκ΅μ κ°μ μ§μ§ (2νλ
)/(μ΄ νλ
) μ΄ λκ³ μΆμλλ° νκ΅μ λͺ» κ°κ³ μμ΄μ λ΅λ΅νμ£ ?
|
32 |
κ·Έλλ μ°λ¦¬ μΉκ΅¬λ€μ μμ κ³Ό 건κ°μ΄ μ΅μ°μ μ΄λκΉμ μ€λλΆν° μ μλμ΄λ λ§€μΌ λ§€μΌ κ΅μ΄ μ¬νμ λ λ보λλ‘ ν΄μ.
|
|
|
44 |
μ΄λ»κ² μ¬λ¬κ°μ§ λ°©λ²μΌλ‘ μ½μκΉ μ°λ¦¬ 곡λΆν΄ 보λλ‘ ν΄μ. μ€λμ μ λμλΌ μ§μ/! μκ° λμμ΅λλ€ μμ μ λͺ©μ΄ λκ°μ? λ€ν° λ μ΄μμ λ€ν° λ .
|
45 |
λꡬλ λ€νλ λμμ΄λ λ€νλ μΈλλ μΉκ΅¬λ? λꡬλ λ€νλμ§ μ μλμ΄ μλ₯Ό μ½μ΄ μ€ ν
λκΉ νλ² μκ°μ ν΄λ³΄λλ‘ ν΄μ."""
|
46 |
|
47 |
+
inputs = [prefix + sample]
|
48 |
|
49 |
|
50 |
+
inputs = tokenizer(inputs, max_length=512, truncation=True, return_tensors="pt")
|
51 |
output = model.generate(**inputs, num_beams=3, do_sample=True, min_length=10, max_length=64)
|
52 |
decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
|
53 |
result = nltk.sent_tokenize(decoded_output.strip())[0]
|