File size: 1,684 Bytes
7c3020d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46

#
# Model Card for t5_small Summarization Model

## Model Details
  모델의 목적은
  1. 입력 뉴스/기사 대해
  2. 요약된 내용을 생성합니다.

  따라서 모델의 input/output은 다음과 같습니다.
  - input : 뉴스/기사 ( = N tokens )
  - output : 감정 라벨 ( = M tokens )

## Training Data
  [CNN/Daily mail](https://github.com/abisee/cnn-dailymail): CNN과 Daily Mail의 저널리스트가 작성한 300,000개가 넘는 고유한 뉴스 기사가 포함된 영어 dataset.
 * 본 데이터의 1.0.0 버전은 Apache-2.0 License를 따르며, 데이터 생성을 위한 코드는 MIT License를 따른다.

  CNN/Daily mail dataset에는 2가지 데이터가 존재합니다.
  - article : 뉴스/기사
  - highlights : 요약

## Training Procedure
 * Seq2SeqTrainingArguments로 학습인자 설정
 * DataCollatorForSeq2Seq로 data collator 설정
 * Seq2SeqTrainer로 trainer 설정 및 학습.

## How to Use
  from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

  tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-small")
  model = AutoModelForSeq2SeqLM.from_pretrained("google-t5/t5-small")

  train_dataset = load_dataset("cnn_dailymail", "3.0.0", split='train[:1%]')
  valid_dataset = load_dataset("cnn_dailymail", "3.0.0", split='validation[:1%]')

## Evaluation
  모델이 "문장을 얼마나 잘 요약하는"
  - ROUGE Score와 BLEU Score를 통해 성능을 확인합니다.
  - Pipeline과 search strategy로 확장된 예측 결과를 확인합니다.
  - ROUGE, BLEU score를 계산하는 compute_metric function을 정의합니다.

## Limitations
  ROUGE score가 높지 않음.
## Ethical Considerations