Update README.md
Browse files
README.md
CHANGED
@@ -9,10 +9,11 @@ tags:
|
|
9 |
widget:
|
10 |
- text: 대한민국의 수도는 [MASK] 입니다.
|
11 |
---
|
12 |
-
#
|
13 |
|
14 |
- distilbert-base-multilingual-cased 모델에 [moco-corpus-kowiki2022 말뭉치](https://huggingface.co/datasets/bongsoo/moco-corpus-kowiki2022)(kowiki202206 + MOCOMSYS 추출 3.2M 문장)로 vocab 추가하여 학습 시킨 모델
|
15 |
-
- **vocab: 159,552
|
|
|
16 |
|
17 |
## Usage (HuggingFace Transformers)
|
18 |
|
@@ -117,12 +118,12 @@ tensor([[-0.1137, 0.1491, 0.6711, ..., -0.0217, 0.1839, -0.6143],
|
|
117 |
|
118 |
**MLM(Masked Langeuage Model) 훈련**
|
119 |
- 입력 모델 : distilbert-base-multilingual-cased
|
120 |
-
- 말뭉치 : 훈련 : bongsoo/moco-corpus-kowiki2022(7.6M) , 평가: **
|
121 |
-
- HyperParameter : **LearningRate : 5e-5,
|
122 |
- vocab : **159,552개** (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
|
123 |
- 출력 모델 : mdistilbertV3.1 (size: 634MB)
|
124 |
- 훈련시간 : 90h/1GPU (24GB/16.5 use)
|
125 |
-
-
|
126 |
- 훈련코드 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-MLM-Trainer-V1.2.ipynb) 참조
|
127 |
<br>perplexity 평가 코드는 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-perplexity-eval-V1.2.ipynb) 참조
|
128 |
|
|
|
9 |
widget:
|
10 |
- text: 대한민국의 수도는 [MASK] 입니다.
|
11 |
---
|
12 |
+
# mdistilbertV3.1
|
13 |
|
14 |
- distilbert-base-multilingual-cased 모델에 [moco-corpus-kowiki2022 말뭉치](https://huggingface.co/datasets/bongsoo/moco-corpus-kowiki2022)(kowiki202206 + MOCOMSYS 추출 3.2M 문장)로 vocab 추가하여 학습 시킨 모델
|
15 |
+
- **vocab: 159,552개 (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가**
|
16 |
+
- mdistilbertV2.1 보다 약 **7,000개** 단어가 더 많고, 한글단어는 **mecab를 이용하여 추출**함.
|
17 |
|
18 |
## Usage (HuggingFace Transformers)
|
19 |
|
|
|
118 |
|
119 |
**MLM(Masked Langeuage Model) 훈련**
|
120 |
- 입력 모델 : distilbert-base-multilingual-cased
|
121 |
+
- 말뭉치 : 훈련 : bongsoo/moco-corpus-kowiki2022(7.6M) , 평가: **bongsoo/moco_eval**
|
122 |
+
- HyperParameter : **LearningRate : 5e-5, epochs: 12 , batchsize: 32, max_token_len : 128**
|
123 |
- vocab : **159,552개** (기존 bert 모델 vocab(119,548개)에 40,004개 (한글단어30,000개+영문10,000개+수동 4개)vocab 추가
|
124 |
- 출력 모델 : mdistilbertV3.1 (size: 634MB)
|
125 |
- 훈련시간 : 90h/1GPU (24GB/16.5 use)
|
126 |
+
- **훈련loss: 2.1154, 평가loss: 2.5275**
|
127 |
- 훈련코드 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-MLM-Trainer-V1.2.ipynb) 참조
|
128 |
<br>perplexity 평가 코드는 [여기](https://github.com/kobongsoo/BERT/blob/master/distilbert/distilbert-perplexity-eval-V1.2.ipynb) 참조
|
129 |
|