Argon-0.5B 模型报告

龚钰轩

Beihang University
Email:tangtaizong@buaa.edu.cn

模型网页：http://argonai.cn/Argon0.5B/ welcome to visit!

Argon-0.5B 一个自研的基线模型，复刻 DeepSeek-V4 模型训练典型优化器，并加入 Engram 模块。

本仓库计划上传模型权重、切分后的训练数据、训练代码、tokenizer 资产和完整配置，使 Argon-0.5B 成为一个可审计、可复现、可继续训练的研究型预训练样例。

1. 项目初衷

这个项目的初衷是复刻 DeepSeek 技术栈中的关键训练流程，并尝试在 500M 参数规模上实现一个完整的预训练闭环。

Argon-0.5B 的设计重点是：

复刻 DeepSeek 风格 tokenizer、数据 pack、bf16 多卡预训练流程；
使用 DeepSeek 128K tokenizer 路径，并区分 raw token 与 canonical token；
构建从原始语料、统一 JSONL、tokenizer 切分、ctx4096 pack 到最终 checkpoint 的全流程；
复现 Engram 模块，并验证其在小模型中的接入方式；
实验 MTP、MHC、Muon/AdamW 混合优化器等训练组件；
形成一个可以公开审计的全栈训练样例，而不仅是单独的模型权重。

2. 模型概览

项目	数值
模型名称	Argon-0.5B
模型类型	Dense Transformer + Engram
总参数量	519,894,016
不含 MTP 主体参数	505,735,168
MTP 参数	14,158,848
Engram 相关参数	约 84.3M
层数	24
hidden size	1024
attention heads	16
FFN hidden size	2560
上下文长度	4096
vocab size	128,896
训练精度	bf16

模型结构配置文件：

configs/model/dense_500m_main.yaml

3. 架构特性

Argon-0.5B 不是标准 Transformers 模型，不能直接用 AutoModelForCausalLM 加载。它依赖本仓库中的自定义 PyTorch 代码。

主要结构包括：

24 层 dense Transformer；
RMSNorm；
RoPE；
clamped SwiGLU；
tied embedding；
Engram memory 模块；
MTP 辅助预测头；
MHC 模块；
DeepSeek 128K tokenizer 路径；
raw token 主 LM loss + canonical token Engram lookup。

Engram 配置：

layers: [2, 12]
ngram_orders: [2, 3]
num_hash_heads: 4
memory_dim: 128
slots_per_layer: 40000

4. Tokenizer

本模型使用 DeepSeek 风格 128K tokenizer。

5. 训练数据

本次训练使用的是已经切分并 pack 好的数据，而不是直接读取原始 JSONL。

packed 数据目录：

artifacts/data/packed/deepseek_128k_ctx4096/current_train/

主要文件：

raw_input_ids.bin           约 32G
canonical_input_ids.bin     约 32G
loss_mask.bin              约 7.8G
metadata.jsonl             约 967M
packing_report.json        约 1.6K

packed 数据总大小约 72G。

训练语料设计偏向：

中文教育网页；
数学核心数据；
科学、论文、PDF、教材；
书籍、百科、公开长文；
英文教育网页；
Markdown、技术文档和少量代码说明；
长上下文平衡数据；
中文通用高质量覆盖；
Ultra-FineWeb 中英高分子集；
少量中文教材式合成知识；
少量弱问答/说明型数据。

本轮训练最终使用：

8,373,338,112 tokens

6. 训练配置

训练硬件：

4 x NVIDIA RTX PRO 6000 Blackwell Server Edition

训练命令：

NPROC_PER_NODE=4 bash scripts/05_train_500m_engram_pro6000.sh \
  --batch_size 4 \
  --gradient_accumulation_steps 3 \
  --compile false

有效 batch：

4 GPUs × batch_size 4 × grad_accum 3 × ctx4096
= 196,608 tokens / optimizer step

主要配置文件：

configs/train/s2_b_500m_engram_pro6000.yaml
configs/data/pack_ctx4096.yaml
configs/optim/hybrid_muon_500m.yaml

优化器设计：

backbone matrix：AdamW warmup 后切换到 Muon；
MTP matrix：AdamW warmup 后切换到 Muon；
embedding/head/norm/bias：AdamW；
Engram memory：Adam；
Engram gate/proj/conv：AdamW；
MHC params：AdamW；
cosine scheduler；
warmup tokens：3M；
Muon switch after：5M tokens；
grad clip：1.0。

7. 训练结果

最终 checkpoint：

checkpoint_step_42589.pt

最终训练状态：

指标	数值
final step	42,589
tokens seen	8,373,338,112
final train loss	3.1081
final main LM loss	2.7964
final MTP loss	3.1173
最终瞬时速度	约 105.5K tokens/s
常规训练速度	约 111K tokens/s
world size	4

本地下载后的最终 checkpoint SHA256：

e6377fb533dbfa36ef14d28774e8b8a58f026e3e5ef94f02826e31b2a7de30dc

8. 训练图表

以下图表由完整训练日志 train_log.jsonl 生成，曲线使用 200-step rolling mean 平滑。

8.1 Loss 曲线

8.2 训练吞吐

8.3 Engram Gate 曲线

8.4 Engram / MHC 健康指标

8.5 优化器更新范数

9. 使用方式

该模型需要本仓库代码加载。

CPU 续写测试：

python3 scripts/29_pure_continue_eval_500m.py \
  --checkpoint checkpoints/checkpoint_step_42589.pt \
  --device cpu \
  --max-new-tokens 64 \
  --temperature 0.35 \
  --top-k 40 \
  "强化学习是"

CUDA 续写测试：

python3 scripts/29_pure_continue_eval_500m.py \
  --checkpoint checkpoints/checkpoint_step_42589.pt \
  --device cuda \
  --max-new-tokens 128 \
  "The main idea of reinforcement learning is"

也可以用 chat 模板做 smoke test：

python3 -m engram_v4.eval.chat_generate \
  --checkpoint checkpoints/checkpoint_step_42589.pt \
  --device cuda \
  --prompt "你好，简单介绍一下你自己。" \
  --max-new-tokens 128

但当前模型没有经过 SFT，因此 chat 模板输出不代表最终对话能力。

10. 初步测试

模型可以正常生成中文和英文，tokenizer、checkpoint、Engram 路径均已验证可用。

当前 checkpoint 的初步续写现象：

中文和英文都能生成；
基本语法正常；
教育/论文风格已经出现；
在部分抽象概念上会出现重复；
数学、科学解释仍需要进一步评测；
该 checkpoint 主要用于观察 base pretraining 阶段的语言建模效果。

示例：

Prompt: 机器学习的核心思想是
Output: 通过数据训练,使模型能够学习到数据中的规律,并能够预测数据中的未知数据...

Prompt: 矩阵乘法可以理解为
Output: “乘数相加”,即“乘数相加”...

这些结果说明模型已完成基础语言建模训练，并可以作为后续技术实验的 checkpoint。

11. 引用

@misc{argon05b2026,
  title = {Argon-0.5B: A 520M Parameter DeepSeek-Style Pretraining and Engram Reproduction Experiment},
  author = {Gong, Yuxuan},
  year = {2026},
  note = {Custom PyTorch pretraining stack with DeepSeek-style tokenizer path and Engram memory components}
}

12. 声明

Argon-0.5B 是实验性研究模型。当前 checkpoint 代表 base pretraining 阶段结果，主要用于技术复现、训练流程研究和后续继续训练。使用者需要自行评估模型行为，并确认数据、代码和权重的使用方式符合自己的应用场景和许可证要求。

Downloads last month: -; Downloads are not tracked for this model. How to track