heegyu
/

ajoublue-gpt2-base-24L

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

heegyu commited on Feb 7, 2023

Commit

dfedd96

•

1 Parent(s): 575c30e

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -17,15 +17,15 @@ pipeline_tag: text-generation
 - GPT2(Flax, Pytorch)
 - 12 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
 - 1024 max_seq_len
-- 파라미터 수: 350M
 ## 학습 환경 및 하이퍼파라미터
 - TPU V2-8
-- Learning Rate: 3e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
 - Optimizer: AdamW(adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01)
 - Training Steps: 43247 (3 epoch)
 - 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
-- 학습 기간: 2023/1/17 ~ 2023/1/19 (2일 6시간)
 - 학습 코드: https://github.com/HeegyuKim/language-model
 ## 학습에 사용한 데이터

 - GPT2(Flax, Pytorch)
 - 12 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
 - 1024 max_seq_len
+- 파라미터 수: 216M
 ## 학습 환경 및 하이퍼파라미터
 - TPU V2-8
+- Learning Rate: 5e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
 - Optimizer: AdamW(adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01)
 - Training Steps: 43247 (3 epoch)
 - 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
+- 학습 기간: 2023/1/25 ~ 2023/1/29
 - 학습 코드: https://github.com/HeegyuKim/language-model
 ## 학습에 사용한 데이터