bongsoo commited on
Commit
db7e430
1 Parent(s): 26c4687

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +6 -5
README.md CHANGED
@@ -9,10 +9,11 @@ tags:
9
  widget:
10
  - text: 대한민국의 수도는 [MASK] 입니다.
11
  ---
12
- # mdistilbertV2.1
13
 
14
  - distilbert-base-multilingual-cased 모델에 [moco-corpus-kowiki2022 말뭉치](https://huggingface.co/datasets/bongsoo/moco-corpus-kowiki2022)(kowiki202206 + MOCOMSYS 추출 3.2M 문장)로 vocab 추가하여 학습 시킨 모델
15
- - **vocab: 159,552개**(기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
 
16
 
17
  ## Usage (HuggingFace Transformers)
18
 
@@ -117,12 +118,12 @@ tensor([[-0.1137, 0.1491, 0.6711, ..., -0.0217, 0.1839, -0.6143],
117
 
118
  **MLM(Masked Langeuage Model) 훈련**
119
  - 입력 모델 : distilbert-base-multilingual-cased
120
- - 말뭉치 : 훈련 : bongsoo/moco-corpus-kowiki2022(7.6M) , 평가: ** bongsoo/moco_eva **
121
- - HyperParameter : **LearningRate : 5e-5, ** epochs: 12 **, batchsize: 32, max_token_len : 128**
122
  - vocab : **159,552개** (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
123
  - 출력 모델 : mdistilbertV3.1 (size: 634MB)
124
  - 훈련시간 : 90h/1GPU (24GB/16.5 use)
125
- - loss : **훈련loss: 2.1154, 평가loss: 2.5275 **
126
  - 훈련코드 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-MLM-Trainer-V1.2.ipynb) 참조
127
  <br>perplexity 평가 코드는 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-perplexity-eval-V1.2.ipynb) 참조
128
 
 
9
  widget:
10
  - text: 대한민국의 수도는 [MASK] 입니다.
11
  ---
12
+ # mdistilbertV3.1
13
 
14
  - distilbert-base-multilingual-cased 모델에 [moco-corpus-kowiki2022 말뭉치](https://huggingface.co/datasets/bongsoo/moco-corpus-kowiki2022)(kowiki202206 + MOCOMSYS 추출 3.2M 문장)로 vocab 추가하여 학습 시킨 모델
15
+ - **vocab: 159,552(기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가**
16
+ - mdistilbertV2.1 보다 약 **7,000개** 단어가 더 많고, 한글단어는 **mecab를 이용하여 추출**함.
17
 
18
  ## Usage (HuggingFace Transformers)
19
 
 
118
 
119
  **MLM(Masked Langeuage Model) 훈련**
120
  - 입력 모델 : distilbert-base-multilingual-cased
121
+ - 말뭉치 : 훈련 : bongsoo/moco-corpus-kowiki2022(7.6M) , 평가: **bongsoo/moco_eval**
122
+ - HyperParameter : **LearningRate : 5e-5, epochs: 12 , batchsize: 32, max_token_len : 128**
123
  - vocab : **159,552개** (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
124
  - 출력 모델 : mdistilbertV3.1 (size: 634MB)
125
  - 훈련시간 : 90h/1GPU (24GB/16.5 use)
126
+ - **훈련loss: 2.1154, 평가loss: 2.5275**
127
  - 훈련코드 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-MLM-Trainer-V1.2.ipynb) 참조
128
  <br>perplexity 평가 코드는 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-perplexity-eval-V1.2.ipynb) 참조
129