Itaking
/

itakura-300m-cpt-model

Text Generation

continued-pretraining

Model card Files Files and versions

OLMo-2 300M — CPT (Continued Pretraining)

OLMo-2 アーキテクチャを ~300M に縮小し、英語事前学習（Stage 1）の後に英日バイリンガルデータで継続事前学習（アニーリング）したモデルです。

Model Architecture

項目	値
Base config	allenai/OLMo-2-0425-1B（config のみ・重みは使用せず）
Parameters	~300M
hidden_size	1024
num_hidden_layers	16
num_attention_heads	16
num_key_value_heads	8 (GQA)
intermediate_size	4096
max_position_embeddings	2048
Tokenizer	allenai/OLMo-2-0425-1B

Training

Stage 1: Pretraining（ベースモデル）

項目	値
Dataset	FineWeb (sample-10BT)
Tokens	~1.5B
Learning rate	3e-4 (cosine + min_lr_rate=0.1)
Batch size (effective)	128 seq × 2048 tokens = 262K tokens/step

Stage 2: CPT / Annealing（このモデル）

項目	値
Dataset	FineWeb-Edu 60% + Wikipedia JA 40%
Tokens	~0.3B
Learning rate	1e-4 (cosine + min_lr_rate=0.1)
Sequence packing	あり（padding ゼロ）
Hardware	NVIDIA RTX 4090 24GB
Framework	HuggingFace Transformers + Trainer

Intended Use

次のステージ（SFT / DPO）のベースモデルとして使用
英日バイリンガルのテキスト補完タスク
LLM トレーニングパイプラインの学習・研究目的

Limitations

事前学習・継続事前学習のみで、instruction tuning は未実施
質問への回答ではなく「文章の続き」を生成するモデル
データ量が少ないため（Chinchilla 最適の約 1/4）、品質は限定的

Training Data Attribution

データセット	ライセンス
FineWeb-Edu (HuggingFaceFW)	ODC-By
Wikipedia JA (Wikimedia)	CC BY-SA 4.0

License

Apache 2.0

Downloads last month: 49

Safetensors

Model size

0.5B params

Tensor type

BF16

·