OLMo-2 300M — CPT (Continued Pretraining)
OLMo-2 アーキテクチャを ~300M に縮小し、英語事前学習(Stage 1)の後に
英日バイリンガルデータで継続事前学習(アニーリング)したモデルです。
Model Architecture
| 項目 |
値 |
| Base config |
allenai/OLMo-2-0425-1B(config のみ・重みは使用せず) |
| Parameters |
~300M |
| hidden_size |
1024 |
| num_hidden_layers |
16 |
| num_attention_heads |
16 |
| num_key_value_heads |
8 (GQA) |
| intermediate_size |
4096 |
| max_position_embeddings |
2048 |
| Tokenizer |
allenai/OLMo-2-0425-1B |
Training
Stage 1: Pretraining(ベースモデル)
| 項目 |
値 |
| Dataset |
FineWeb (sample-10BT) |
| Tokens |
~1.5B |
| Learning rate |
3e-4 (cosine + min_lr_rate=0.1) |
| Batch size (effective) |
128 seq × 2048 tokens = 262K tokens/step |
Stage 2: CPT / Annealing(このモデル)
| 項目 |
値 |
| Dataset |
FineWeb-Edu 60% + Wikipedia JA 40% |
| Tokens |
~0.3B |
| Learning rate |
1e-4 (cosine + min_lr_rate=0.1) |
| Sequence packing |
あり(padding ゼロ) |
| Hardware |
NVIDIA RTX 4090 24GB |
| Framework |
HuggingFace Transformers + Trainer |
Intended Use
- 次のステージ(SFT / DPO)のベースモデルとして使用
- 英日バイリンガルのテキスト補完タスク
- LLM トレーニングパイプラインの学習・研究目的
Limitations
- 事前学習・継続事前学習のみで、instruction tuning は未実施
- 質問への回答ではなく「文章の続き」を生成するモデル
- データ量が少ないため(Chinchilla 最適の約 1/4)、品質は限定的
Training Data Attribution
| データセット |
ライセンス |
| FineWeb-Edu (HuggingFaceFW) |
ODC-By |
| Wikipedia JA (Wikimedia) |
CC BY-SA 4.0 |
License
Apache 2.0