import torch from transformers import T5TokenizerFast, T5ForConditionalGeneration
GPU ์ฌ์ฉ ์ฌ๋ถ ํ์ธ
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
๋ชจ๋ธ ๋ฐ ํ ํฌ๋์ด์ ๋ถ๋ฌ์ค๊ธฐ
model_name = "jokh7802/KoT5_Summarization" tokenizer = T5TokenizerFast.from_pretrained(model_name) model = T5ForConditionalGeneration.from_pretrained(model_name).to(device)
ํ ์คํธ ๋ฌธ์ฅ
sample_text_3 = ( "์ธ๊ณต์ง๋ฅ ๊ธฐ์ ์ ํ๋ ์ฌํ์์ ๋งค์ฐ ์ค์ํ ์ญํ ์ ํ๊ณ ์์ต๋๋ค. ๊ธฐ๊ณ ํ์ต๊ณผ ๋ฅ ๋ฌ๋์ ๋ฐ์ ์ผ๋ก ์ธ์ด ์ฒ๋ฆฌ, ์ด๋ฏธ์ง ์ธ์, ์์ฑ ์ธ์, ์์จ ์ฃผํ " "์ฐจ๋ ๋ฐ ์๋ฃ ์ง๋จ๊ณผ ๊ฐ์ ๋ค์ํ ๋ถ์ผ์์ ๊ธ๊ฒฉํ ์ง๋ณด๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๊ธฐ์ ์ ์ฐ๋ฆฌ์ ์ถ์ ํฌ๊ฒ ๋ณํ์ํค๊ณ ์์ผ๋ฉฐ, ๋ค์ํ ์ฐ์ ๋ถ์ผ์ " "์๋ก์ด ๊ธฐํ๋ฅผ ์ ๊ณตํ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ธฐ์ ๋ฐ์ ์๋ ๊ณ ๋ คํด์ผ ํ ์ฌ๋ฌ ์ค์ํ ์ธก๋ฉด์ด ์์ต๋๋ค. ์ธ๊ณต์ง๋ฅ ๊ธฐ์ ์ ๋ฐ์ดํฐ์ ์์กดํ๋ฉฐ, ๋ฐ์ดํฐ์ ํ์ง๊ณผ " "๊ฐ์ธ ์ ๋ณด ๋ณดํธ๋ ๊ณ์ํด์ ์ฃผ๋ชฉํด์ผ ํ ๋ฌธ์ ์ ๋๋ค. ๋ํ, ์๊ณ ๋ฆฌ์ฆ์ ํฌ๋ช ์ฑ๊ณผ ๊ณต์ ์ฑ์ ๋ํ ์ฐ๋ ค๋ ๋์์ง๊ณ ์์ต๋๋ค. ์ธ๊ฐ ์ค์ฌ์ ๊ฐ๋ฐ๊ณผ ์ค๋ฆฌ์ ์ธ ์ฑ ์์ ์ค์ํ๋ " "๋ฐฉํฅ์ผ๋ก ๊ธฐ์ ์ด ๋ฐ์ ํด์ผ ํฉ๋๋ค." "๋จธ์ ๋ฌ๋ ๋ฐ ๋ฅ ๋ฌ๋์ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๊ณ , ์ด๋ฅผ ํตํด ํจํด์ ์๋ณํ๊ณ ์์ธกํฉ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ์ด๋ฏธ์ง, ์์ฑ, ํ ์คํธ์ ๊ฐ์ ๋ค์ํ ํํ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, " "์ด๋ฅผ ํตํด ์ธ์ด ๋ฒ์ญ, ์์ฑ ์ธ์, ์ผ๊ตด ์ธ์, ์ถ์ฒ ์์คํ ๋ฐ ์์ธก ๋ถ์๊ณผ ๊ฐ์ ์์ฉ ํ๋ก๊ทธ๋จ์ ๊ตฌํํ ์ ์์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ํธํฅ์ฑ์ ์ํฅ์ ๋ฐ์ ์ ์์ผ๋ฉฐ, " "์ด๋ก ์ธํด ๊ณต์ ํ์ง ์์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์ต๋๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด์๋ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ณ , ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ์ง์์ ์ธ ๋ ธ๋ ฅ์ด ํ์ํฉ๋๋ค." "๋ํ, ์ธ๊ณต์ง๋ฅ์ ๋ฏธ๋์๋ ์ค์ฉ์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ค์ ์ ๋๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๋ฃ ๋ถ์ผ์์๋ ์ง๋ณ ์ง๋จ ๋ฐ ์น๋ฃ์ ๋์์ ์ฃผ๋ ๊ธฐ์ ์ด ๊ฐ๋ฐ๋๊ณ ์์ต๋๋ค. ๋์ ๋ถ์ผ์์๋ " "์๋ฌผ ์์ฐ์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ์ง๋ฅํ ๋์ ๊ธฐ์ ์ด ์ ์ฉ๋๊ณ ์์ต๋๋ค. ๋ํ, ์ค๋งํธ ์ํฐ ๊ธฐ์ ์ ๋์์ ํจ์จ์ฑ๊ณผ ์ง์ ๊ฐ๋ฅ์ฑ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ํ์ ์ ์ธ ์ ์ฉ ๋ถ์ผ์์๋ " "๊ธฐ์ ๊ณผ ์ค๋ฆฌ๊ฐ ์กฐํ๋ฅผ ์ด๋ฃจ๋ฉฐ ์ฌํ์ ๊ฐ์น๋ฅผ ์ฐฝ์ถํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ผ ํฉ๋๋ค." )
input_text = sample_text_3
๋ฌธ์ฅ์ ํ ํฐํํ๊ณ ์์ฝ ์์ฑ
input_ids = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True).to(device) output = model.generate(input_ids, max_length=150, num_beams=4, length_penalty=2.0, early_stopping=True)
์์ฑ๋ ์์ฝ์ ๋์ฝ๋ฉํ์ฌ ์ถ๋ ฅ
summary = tokenizer.decode(output[0], skip_special_tokens=True) print("Original Sentence: ", input_text) print("Generated Summary: ", summary)
#์ถ๋ ฅ๊ฒฐ๊ณผ #Original Sentence: ์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฌธ์ฅ์ ํจ๊ณผ์ ์ผ๋ก ์์ฝํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. #Generated Summary: ํ๊ตญ์ด ๋ฌธ์ฅ์ ํจ๊ณผ์ ์ผ๋ก ์์ฝํ๋ ๋ฐ ์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฌธ์ฅ์ ํจ๊ณผ์ ์ผ๋ก ์์ฝํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
- Downloads last month
- 3