Argon-0.5B 模型报告

龚钰轩

Beihang University
Email:tangtaizong@buaa.edu.cn

模型网页:http://argonai.cn/Argon0.5B/ welcome to visit!

Argon-0.5B 一个自研的基线模型,复刻 DeepSeek-V4 模型训练典型优化器,并加入 Engram 模块。

本仓库计划上传模型权重、切分后的训练数据、训练代码、tokenizer 资产和完整配置,使 Argon-0.5B 成为一个可审计、可复现、可继续训练的研究型预训练样例。

1. 项目初衷

这个项目的初衷是复刻 DeepSeek 技术栈中的关键训练流程,并尝试在 500M 参数规模上实现一个完整的预训练闭环。

Argon-0.5B 的设计重点是:

  • 复刻 DeepSeek 风格 tokenizer、数据 pack、bf16 多卡预训练流程;
  • 使用 DeepSeek 128K tokenizer 路径,并区分 raw token 与 canonical token;
  • 构建从原始语料、统一 JSONL、tokenizer 切分、ctx4096 pack 到最终 checkpoint 的全流程;
  • 复现 Engram 模块,并验证其在小模型中的接入方式;
  • 实验 MTP、MHC、Muon/AdamW 混合优化器等训练组件;
  • 形成一个可以公开审计的全栈训练样例,而不仅是单独的模型权重。

2. 模型概览

项目 数值
模型名称 Argon-0.5B
模型类型 Dense Transformer + Engram
总参数量 519,894,016
不含 MTP 主体参数 505,735,168
MTP 参数 14,158,848
Engram 相关参数 约 84.3M
层数 24
hidden size 1024
attention heads 16
FFN hidden size 2560
上下文长度 4096
vocab size 128,896
训练精度 bf16

模型结构配置文件:

configs/model/dense_500m_main.yaml

3. 架构特性

Argon-0.5B 不是标准 Transformers 模型,不能直接用 AutoModelForCausalLM 加载。它依赖本仓库中的自定义 PyTorch 代码。

主要结构包括:

  • 24 层 dense Transformer;
  • RMSNorm;
  • RoPE;
  • clamped SwiGLU;
  • tied embedding;
  • Engram memory 模块;
  • MTP 辅助预测头;
  • MHC 模块;
  • DeepSeek 128K tokenizer 路径;
  • raw token 主 LM loss + canonical token Engram lookup。

Engram 配置:

layers: [2, 12]
ngram_orders: [2, 3]
num_hash_heads: 4
memory_dim: 128
slots_per_layer: 40000

4. Tokenizer

本模型使用 DeepSeek 风格 128K tokenizer。

相关文件:

configs/tokenizer/deepseek_tokenizer.yaml
artifacts/tokenizer/deepseek_main/
artifacts/tokenizer/engram_compression_deepseek_v1/raw_to_canonical.uint32.npy

训练时:

  • 主模型 CE loss 使用 raw token ids;
  • Engram lookup 使用压缩后的 canonical token ids;
  • context length 为 4096。

5. 训练数据

本次训练使用的是已经切分并 pack 好的数据,而不是直接读取原始 JSONL。

packed 数据目录:

artifacts/data/packed/deepseek_128k_ctx4096/current_train/

主要文件:

raw_input_ids.bin           约 32G
canonical_input_ids.bin     约 32G
loss_mask.bin              约 7.8G
metadata.jsonl             约 967M
packing_report.json        约 1.6K

packed 数据总大小约 72G

训练语料设计偏向:

  • 中文教育网页;
  • 数学核心数据;
  • 科学、论文、PDF、教材;
  • 书籍、百科、公开长文;
  • 英文教育网页;
  • Markdown、技术文档和少量代码说明;
  • 长上下文平衡数据;
  • 中文通用高质量覆盖;
  • Ultra-FineWeb 中英高分子集;
  • 少量中文教材式合成知识;
  • 少量弱问答/说明型数据。

本轮训练最终使用:

8,373,338,112 tokens

6. 训练配置

训练硬件:

4 x NVIDIA RTX PRO 6000 Blackwell Server Edition

训练命令:

NPROC_PER_NODE=4 bash scripts/05_train_500m_engram_pro6000.sh \
  --batch_size 4 \
  --gradient_accumulation_steps 3 \
  --compile false

有效 batch:

4 GPUs × batch_size 4 × grad_accum 3 × ctx4096
= 196,608 tokens / optimizer step

主要配置文件:

configs/train/s2_b_500m_engram_pro6000.yaml
configs/data/pack_ctx4096.yaml
configs/optim/hybrid_muon_500m.yaml

优化器设计:

  • backbone matrix:AdamW warmup 后切换到 Muon;
  • MTP matrix:AdamW warmup 后切换到 Muon;
  • embedding/head/norm/bias:AdamW;
  • Engram memory:Adam;
  • Engram gate/proj/conv:AdamW;
  • MHC params:AdamW;
  • cosine scheduler;
  • warmup tokens:3M;
  • Muon switch after:5M tokens;
  • grad clip:1.0。

7. 训练结果

最终 checkpoint:

checkpoint_step_42589.pt

最终训练状态:

指标 数值
final step 42,589
tokens seen 8,373,338,112
final train loss 3.1081
final main LM loss 2.7964
final MTP loss 3.1173
最终瞬时速度 约 105.5K tokens/s
常规训练速度 约 111K tokens/s
world size 4

本地下载后的最终 checkpoint SHA256:

e6377fb533dbfa36ef14d28774e8b8a58f026e3e5ef94f02826e31b2a7de30dc

8. 训练图表

以下图表由完整训练日志 train_log.jsonl 生成,曲线使用 200-step rolling mean 平滑。

8.1 Loss 曲线

Argon-0.5B loss curve

8.2 训练吞吐

Argon-0.5B throughput curve

8.3 Engram Gate 曲线

Argon-0.5B Engram gate curve

8.4 Engram / MHC 健康指标

Argon-0.5B Engram and MHC health metrics

8.5 优化器更新范数

Argon-0.5B optimizer update norms

9. 使用方式

该模型需要本仓库代码加载。

CPU 续写测试:

python3 scripts/29_pure_continue_eval_500m.py \
  --checkpoint checkpoints/checkpoint_step_42589.pt \
  --device cpu \
  --max-new-tokens 64 \
  --temperature 0.35 \
  --top-k 40 \
  "强化学习是"

CUDA 续写测试:

python3 scripts/29_pure_continue_eval_500m.py \
  --checkpoint checkpoints/checkpoint_step_42589.pt \
  --device cuda \
  --max-new-tokens 128 \
  "The main idea of reinforcement learning is"

也可以用 chat 模板做 smoke test:

python3 -m engram_v4.eval.chat_generate \
  --checkpoint checkpoints/checkpoint_step_42589.pt \
  --device cuda \
  --prompt "你好,简单介绍一下你自己。" \
  --max-new-tokens 128

但当前模型没有经过 SFT,因此 chat 模板输出不代表最终对话能力。

10. 初步测试

模型可以正常生成中文和英文,tokenizer、checkpoint、Engram 路径均已验证可用。

当前 checkpoint 的初步续写现象:

  • 中文和英文都能生成;
  • 基本语法正常;
  • 教育/论文风格已经出现;
  • 在部分抽象概念上会出现重复;
  • 数学、科学解释仍需要进一步评测;
  • 该 checkpoint 主要用于观察 base pretraining 阶段的语言建模效果。

示例:

Prompt: 机器学习的核心思想是
Output: 通过数据训练,使模型能够学习到数据中的规律,并能够预测数据中的未知数据...
Prompt: 矩阵乘法可以理解为
Output: “乘数相加”,即“乘数相加”...

这些结果说明模型已完成基础语言建模训练,并可以作为后续技术实验的 checkpoint。

11. 引用

@misc{argon05b2026,
  title = {Argon-0.5B: A 520M Parameter DeepSeek-Style Pretraining and Engram Reproduction Experiment},
  author = {Gong, Yuxuan},
  year = {2026},
  note = {Custom PyTorch pretraining stack with DeepSeek-style tokenizer path and Engram memory components}
}

12. 声明

Argon-0.5B 是实验性研究模型。当前 checkpoint 代表 base pretraining 阶段结果,主要用于技术复现、训练流程研究和后续继续训练。使用者需要自行评估模型行为,并确认数据、代码和权重的使用方式符合自己的应用场景和许可证要求。

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support