team-lucid/t5-v1_1-large-ko

Google's T5 Version 1.1 that trained on korean corpus

t5-v1_1-large-ko은 한국어 코퍼스에서 학습된 t5 v1.1 모델입니다.

OOV을 막기 위해 BBPE를 사용하였으며, HyperCLOVA에서 형태소 분석이 성능을 높히는데 도움이 되는 것을 보고 토크나이저 학습 과정에서 MeCab을 이용해 형태소가 이상하게 토큰화되지 않도록 하였습니다.

이 연구는 구글의 TPU Research Cloud(TRC)를 통해 지원받은 Cloud TPU로 학습되었습니다.

Usage

from transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained('team-lucid/t5-v1_1-large-ko')
model = T5ForConditionalGeneration.from_pretrained('team-lucid/t5-v1_1-large-ko')

team-lucid
/

t5-v1_1-large-ko

team-lucid/t5-v1_1-large-ko

Usage

Collection including team-lucid/t5-v1_1-large-ko

T5 1.1