# RoBERTa-base Korean

## 모델 설명
이 RoBERTa 모델은 다양한 한국어 텍스트 데이터셋에서 **음절** 단위로 사전 학습되었습니다.
자체 구축한 한국어 음절 단위 vocab을 사용하였습니다.

## 아키텍처
- **모델 유형**: RoBERTa
- **아키텍처**: RobertaForMaskedLM
- **모델 크기**: 128 hidden size, 8 hidden layers, 8 attention heads
- **max_position_embeddings**: 514
- **intermediate_size**: 2048
- **vocab_size**: 1428

## 학습 데이터
사용된 데이터셋은 다음과 같습니다:
- **모두의말뭉치**: 채팅, 게시판, 일상대화, 뉴스, 방송대본, 책 등
- **AIHUB**: SNS, 유튜브 댓글, 도서 문장
- **기타**: 나무위키, 한국어 위키피디아

 총 합산된 데이터는 약 11GB 입니다.

## 학습 상세
- **BATCH_SIZE**: 112 (GPU당)
- **ACCUMULATE**: 36
- **Total_BATCH_SIZE**: 8064
- **MAX_STEPS**: 12,500
- **TRAIN_STEPS * BATCH_SIZE**: **100M**
- **WARMUP_STEPS**: 2,400
- **최적화**: AdamW, LR 1e-3, BETA (0.9, 0.98), eps 1e-6
- **학습률 감쇠**: linear
- **사용된 하드웨어**: 2x RTX 8000 GPU

## 사용 방법
### tokenizer의 경우 wordpiece가 아닌 syllable 단위이기에 AutoTokenizer가 아니라 SyllableTokenizer를 사용해야 합니다. 
### (레포에서 제공하고 있는 syllabletokenizer.py를 가져와서 사용해야 합니다.)
```python
from transformers import AutoModel, AutoTokenizer
from syllabletokenizer import SyllableTokenizer

# 모델과 토크나이저 불러오기
model = AutoModelForMaskedLM.from_pretrained("Trofish/korean_syllable_roberta")
tokenizer = SyllableTokenizer(vocab_file='vocab.json',**tokenizer_kwargs)

# 텍스트를 토큰으로 변환하고 예측 수행
inputs = tokenizer("여기에 한국어 텍스트 입력", return_tensors="pt")
outputs = model(**inputs)