How to use
import torch
from transformers import PreTrainedTokenizerFast
from transformers import BartForConditionalGeneration
tokenizer = PreTrainedTokenizerFast.from_pretrained('Forturne/KPMG-NARVIS-summarization')
model = BartForConditionalGeneration.from_pretrained('Forturne/KPMG-NARVIS-summarization')
model.eval()
device="cuda:0"
model.to(device)
text = """โ์ฒ์์๋ โ๊ธ๋ฐฉ ๋๋๊ฒ ์งโ๋ผ๊ณ ์๊ฐํ๋๋ฐ ์ด๋๋ง 100์ผ์ด ๋๋ค์. \
๊ทธ๋์ ์ถฅ๊ณ ์ํ๊ณ ํ๋ค์์ง๋ง ์ธ๊ฐ์ผ๋ก์ ๋์ฐ๋ฅผ ๋ฐ์ ์๋ง ์๋ค๋ฉด ๋๊น์ง ๋ฒํธ ์ ์์ต๋๋ค.โ \
LGํธ์ํ์ ์ฒญ์ ๋
ธ๋์๋ค์ด ๊ณ ์ฉ์น๊ณ๋ฅผ ์ฃผ์ฅํ๋ฉฐ ํ์
์ ๋์ ์ง 100์ผ์งธ๋ฅผ ํ๋ฃจ ์๋ 24์ผ \
์์ธ ์ฌ์๋ LGํธ์ํ์ ์ โํ๋ณตํ ๊ณ ์ฉ์น๊ณ ํ
ํธ์ดโ์์ ๋ง๋ ๋ฐ์์ค(63)์จ๋ ํ๋ค์๋ ํฌ์ ๊ณผ์ ์ \
ํ์ํ๋ฉฐ ๋์์ธ์ ๋ถํ๋ค. ๋ฐ์จ๋ 2017๋
๋ถํฐ LGํธ์ํ์์์ ์ฒญ์ ๋
ธ๋์ ํ์ง๋ง ์ง๋ 1์ 1์ผ๋ถ๋ก \
๊ณ์ฝ์ด ์ข
๋ฃ๋ผ ์ง์ฅ์ ๋ ๋ฌ๋ค. ์๋์ฐจ ์์๊ณผ ๋ถํธํ ์ ์๋ฆฌ๋ก ํ
ํธ์์ ๋งค์ผ ๋ฐค์ ์ ์ค์น์ง๋ง ํฌ์์ \
ํฌ๊ธฐํ ์ ์๋ค๊ณ ํ๋ค. ๊ทธ๋ โLG๊ฐ ๊ทธ๋์ ์ฌํ์ ์ฑ
์๊ณผ ์ ๋๊ฒฝ์์ ๊ฐ์กฐํด ์๊ธฐ์ ํ์
์ด ๊ธ๋ฐฉ ๋๋ \
์ค ์์๋คโ๋ฉฐ โ๋ฒํฐ์ง ๋ชปํ๊ณ ์ ์ ๋ ๋๋ ๋์ง๋ค์ ๋ฐ๋ผ๋ณผ ๋๋ง๋ค ๋ง์์ด ์ํ์ง๋ง ์ ๋นํ ๋
ธ๋ ๊ถ๋ฆฌ๋ฅผ \
์ธ์ ๋ฐ๊ธฐ ์ํด ๋๊น์ง ํฌ์ํ ๊ฒโ์ด๋ผ๊ณ ๊ฐ์กฐํ๋ค. ์ง๋ํด 11์ 26์ผ๋ถํฐ ํ์
์ ๋์
ํ ์ฒญ์ \
๋
ธ๋์๋ค์ 25์ผ ํ์
100์ผ์งธ๋ฅผ ๋ง๋๋ค. ๊ฑด๋ฌผ 1์ธต ๋ก๋น์์ ์์๋ฅผ ํ๋ 25๋ช
์ ์ฒญ์ ๋
ธ๋์๋ค์ ์ง๋ \
22์ผ๋ถํฐ ์ ๋ฌธ ์ ๋๋ณด์ ํ
ํธ์ด์ ์ค์นํ๊ณ ์ฅ์๋ฅผ ์ฎ๊ฒผ๋ค. ํ์
100์ผ์ ๋ง์ถฐ 25์ผ๊น์ง ์๋ฏผ์ฐ๋์ \
ํจ๊ป ํ
ํธ 100๊ฐ๋ฅผ ์ค์นํ๊ณ ์ฃผยท์ผ๊ฐ ์ฐ๋ ์์๋ฅผ ์ด์ด๊ฐ๊ฒ ๋ค๋ ๋ป์์๋ค. ๋
ธ๋์๋ค์ ํ ๋ช
์ด ๊ฐ์ ํ \
๋์ธ ์ ์๋ ํฌ๊ธฐ์ ํ
ํธ ์์์ ๋ฑ๋ฑํ ์๋ฉํธ ๋ฐ๋ฅ์ ๋ชธ์ ๊ธฐ๋ ์ชฝ์ ์ ์ฒญํ๊ณ ์๋ค. LGํธ์ํ์๋ฅผ \
๊ด๋ฆฌํ๋ LG๊ทธ๋ฃน ๊ณ์ด์ฌ โ์์ค์์์ด์ฝํผ๋ ์ด์
โ์ ์ง๋ํด ๋ง โ์ง์์์ด์ค์จโ์ ์ฒญ์ ์ฉ์ญ ๊ณ์ฝ์ \
๋๋ด๊ณ ๋ค๋ฅธ ์
์ฒด์ ์๋ก ๊ณ์ฝํ๋ค. ์ฌ์ธก์ โํ์ง ์ ํโ๋ฅผ ์ด์ ๋ก ๋ค์๋ค. ๋ฐ๋ฉด ๋
ธ๋์๋ค์ 2019๋
\
๋
ธ์กฐ๋ฅผ ๊ฒฐ์ฑํ๊ณ ๊ถ๋ฆฌ๋ฅผ ์ฃผ์ฅํ๊ธฐ ์์ํ๋ฉด์ ์ฌ์ธก ๋ ๋ฐ์ ๋ฌ๋ค๊ณ ์ฃผ์ฅํ๋ค. ๊ทธ๋์ ์
์ฒด๊ฐ \
๋ณ๊ฒฝ๋๋๋ผ๋ ๊ธฐ์กด ์
์ฒด ๋
ธ๋์๋ค์ด ์ ์
์ฒด์ ๊ณ ์ฉ์น๊ณ๊ฐ ๋๋ ๊ฒ ๊ด๋ก์์ง๋ง ์ ์
์ฒด๋ ๊ณ ์ฉ์น๊ณ๋ฅผ \
๋ณด์ฅํ ์ ์๋ค๊ณ ๋ฐํ๋ค. ์ง๋๋ฌ๊น์ง ๊ณ ์ฉ๋
ธ๋๋ถ ์ค์ฌ๋ก ์์ฐจ๋ก ๋
ธ์ฌ ๊ต์ญ์ด ์์์ง๋ง ์ํฉ์ ๋ฌ๋ผ์ง์ง \
์์๋ค. ์ฌ์ธก์ ๋์ ๋
ธ๋์๋ค์๊ฒ ๋ค๋ฅธ ์ฌ์
์ฅ์์ ์ผ์ ํ๊ฒ ํด์ฃผ๊ฒ ๋ค๊ณ ๊ถ์ ํ๋ค. ํ์ง๋ง ๋
ธ๋์๋ค์ \
๋
ธ์กฐ๋ฅผ ์ธ์ ํ์ง ์๋ ๋๊ธฐ์
์ ํํ๋ฅผ ๋ฌต์ธํ ์ฑ ์ฌ์ธก์ ๊ถ์ ์ ๋ฐ๋ฅธ๋ค๋ฉด ์ด๋ ์ฌ์
์ฅ์์ ์ผ์ ํ๋ \
๋๊ฐ์ ํํ๊ฐ ๋ฐ๋ณต๋ ์๋ฐ์ ์๋ค๊ณ ๋ชฉ์๋ฆฌ๋ฅผ ๋์ธ๋ค. ๋๋ฌธ์ ๋ฐ๋์ LGํธ์ํ์์์ ์ ๋นํ ๊ถ๋ฆฌ๋ฅผ \
์ธ์ ๋ฐ๊ณ ๋
ธ๋์ ์ด์ด๊ฐ์ผ๋ง ํ๋ค๊ณ ๋งํ๋ค. ์ด๋ค์ ๊ตฌ๊ด๋ชจ LG๊ทธ๋ฃน ํ์ฅ์ด ๋์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ผ ํ๋ค๊ณ \
์ฃผ์ฅํ๋ค. ์ดํ์ LGํธ์ํ์ ๊ณต๋๋์ฑ
์์ํ ์งํ์์์ โ๊ตฌ ํ์ฅ์ด ์ฑ
์์๋ ๋ต๋ณ์ ๋ด๋์ ๋๊น์ง \
์๋ฏผ์ฌํ ๋จ์์ ํจ๊ป ๊ฒฐ์๋ฅผ ๋ด์ ๋๊น์ง ํ
ํธ์ด์ ์ ์งํ ๊ฒโ์ด๋ผ๊ณ ๊ฐ์กฐํ๋ค."""
text = text.replace('\n', ' ')
raw_input_ids = tokenizer.encode(text)
input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]
summary_ids = model.generate(torch.tensor([input_ids]).to(device), num_beams=4, max_length=512, eos_token_id=1)
print(tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True))