bongsoo
/

mdistilbertV3.1

Inference Endpoints

Model card Files Files and versions Community

bongsoo commited on Oct 19, 2022

Commit

db7e430

•

1 Parent(s): 26c4687

Update README.md

Files changed (1) hide show

README.md +6 -5

README.md CHANGED Viewed

@@ -9,10 +9,11 @@ tags:
 widget:
   - text: 대한민국의 수도는 [MASK] 입니다.
 ---
-# mdistilbertV2.1
 - distilbert-base-multilingual-cased 모델에 [moco-corpus-kowiki2022 말뭉치](https://huggingface.co/datasets/bongsoo/moco-corpus-kowiki2022)(kowiki202206 + MOCOMSYS 추출 3.2M 문장)로  vocab 추가하여 학습 시킨 모델
-- **vocab: 159,552개**(기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
 ## Usage (HuggingFace Transformers)
@@ -117,12 +118,12 @@ tensor([[-0.1137,  0.1491,  0.6711,  ..., -0.0217,  0.1839, -0.6143],
 **MLM(Masked Langeuage Model) 훈련**
 - 입력 모델 : distilbert-base-multilingual-cased
-- 말뭉치 : 훈련 : bongsoo/moco-corpus-kowiki2022(7.6M) , 평가: ** bongsoo/moco_eva **
-- HyperParameter : **LearningRate : 5e-5, ** epochs: 12 **, batchsize: 32, max_token_len : 128**
 - vocab : **159,552개** (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
 - 출력 모델 : mdistilbertV3.1 (size: 634MB)
 - 훈련시간 : 90h/1GPU (24GB/16.5 use)
-- loss : **훈련loss: 2.1154, 평가loss: 2.5275 **
 - 훈련코드 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-MLM-Trainer-V1.2.ipynb) 참조
 <br>perplexity 평가 코드는 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-perplexity-eval-V1.2.ipynb) 참조

 widget:
   - text: 대한민국의 수도는 [MASK] 입니다.
 ---
+# mdistilbertV3.1
 - distilbert-base-multilingual-cased 모델에 [moco-corpus-kowiki2022 말뭉치](https://huggingface.co/datasets/bongsoo/moco-corpus-kowiki2022)(kowiki202206 + MOCOMSYS 추출 3.2M 문장)로  vocab 추가하여 학습 시킨 모델
+- **vocab: 159,552개 (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가**
+- mdistilbertV2.1 보다 약 **7,000개** 단어가 더 많고, 한글단어는 **mecab를 이용하여 추출**함.
 ## Usage (HuggingFace Transformers)
 **MLM(Masked Langeuage Model) 훈련**
 - 입력 모델 : distilbert-base-multilingual-cased
+- 말뭉치 : 훈련 : bongsoo/moco-corpus-kowiki2022(7.6M) , 평가: **bongsoo/moco_eval**
+- HyperParameter : **LearningRate : 5e-5, epochs: 12 , batchsize: 32, max_token_len : 128**
 - vocab : **159,552개** (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
 - 출력 모델 : mdistilbertV3.1 (size: 634MB)
 - 훈련시간 : 90h/1GPU (24GB/16.5 use)
+- **훈련loss: 2.1154, 평가loss: 2.5275**
 - 훈련코드 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-MLM-Trainer-V1.2.ipynb) 참조
 <br>perplexity 평가 코드는 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-perplexity-eval-V1.2.ipynb) 참조