KoT5_news_summarization

This model is a lcw99/t5-base-korean-text-summary finetuned on the daekeun-ml/naver-news-summarization-ko

Model description

<<20221021 Commit>>

프로젝트용으로 뉴스 요약 모델 특화된 모델을 만들기 위해 lcw99님의 t5-base-korean-text-summary 모델에 추가적으로 daekeun-ml님이 제공해주신 naver-news-summarization-ko 데이터셋으로 파인튜닝 했습니다.

현재 제가 가지고 있는 뉴스 데이터로 추가 학습 진행 예정입니다. 지속적으로 발전시켜 좋은 성능의 모델을 구현하겠습니다. 감사합니다.

실행환경

Google Colab Pro
CPU : Intel(R) Xeon(R) CPU @ 2.20GHz
GPU : A100-SXM4-40GB


# Python Code
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("noahkim/KoT5_news_summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("noahkim/KoT5_news_summarization")

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 4
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss
0.4513	1.0	2775	0.4067
0.42	2.0	5550	0.3933
0.395	3.0	8325	0.3864
0.3771	4.0	11100	0.3872

Framework versions

Transformers 4.23.1
Pytorch 1.12.1+cu113
Datasets 2.6.1
Tokenizers 0.13.1