Nwna/olmo3-190m-zh-v2-base-data
Viewer • Updated • 1 • 52
How to use Nwna/olmo3-190m-zh-v2-base with Transformers:
# Use a pipeline as a high-level helper
from transformers import pipeline
pipe = pipeline("text-generation", model="Nwna/olmo3-190m-zh-v2-base") # Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Nwna/olmo3-190m-zh-v2-base")
model = AutoModelForCausalLM.from_pretrained("Nwna/olmo3-190m-zh-v2-base")How to use Nwna/olmo3-190m-zh-v2-base with vLLM:
# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Nwna/olmo3-190m-zh-v2-base"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "Nwna/olmo3-190m-zh-v2-base",
"prompt": "Once upon a time,",
"max_tokens": 512,
"temperature": 0.5
}'docker model run hf.co/Nwna/olmo3-190m-zh-v2-base
How to use Nwna/olmo3-190m-zh-v2-base with SGLang:
# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
--model-path "Nwna/olmo3-190m-zh-v2-base" \
--host 0.0.0.0 \
--port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "Nwna/olmo3-190m-zh-v2-base",
"prompt": "Once upon a time,",
"max_tokens": 512,
"temperature": 0.5
}'docker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path "Nwna/olmo3-190m-zh-v2-base" \
--host 0.0.0.0 \
--port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "Nwna/olmo3-190m-zh-v2-base",
"prompt": "Once upon a time,",
"max_tokens": 512,
"temperature": 0.5
}'How to use Nwna/olmo3-190m-zh-v2-base with Docker Model Runner:
docker model run hf.co/Nwna/olmo3-190m-zh-v2-base
中文 from-scratch pretrain 教学模型。本模型使用自训 48k 中文 BPE tokenizer 和约 3.3907B tokens 中文语料,从零训练 OLMo3-190M 架构 1 epoch。
这是《零基础 AI 大模型研发训练营》第 04 讲作业模型。它是 base model,不是 instruction/chat model;适合用于中文续写、继续预训练和后续 SFT。
本模型的目标是完整走通小型中文 LLM 的基础预训练链路:
原始中文语料
-> 自训 48k 中文 BPE tokenizer
-> 构建 3.3907B tokenized base 数据
-> 从零训练 OLMo3-190M base model 1 epoch
-> 生成评估
-> 推送 HuggingFace
这条 v2 链路没有直接复用老师旧版 tokenized 数据,而是重新训练 tokenizer、重新构建 tokenized 数据,并同步模型 config 的 vocab_size 与特殊 token id。
基于 OLMo3-190M causal LM 架构:
| 字段 | 值 |
|---|---|
architectures |
["Olmo3ForCausalLM"] |
hidden_size |
768 |
num_hidden_layers |
12 |
num_attention_heads |
12 |
intermediate_size |
3072 |
vocab_size |
48,000 |
max_position_embeddings |
4096 |
| training seq_len | 2048 |
| total params | ~187M |
from transformers import AutoModelForCausalLM, AutoTokenizer
tok = AutoTokenizer.from_pretrained("Nwna/olmo3-190m-zh-v2-base")
model = AutoModelForCausalLM.from_pretrained("Nwna/olmo3-190m-zh-v2-base")
inputs = tok("人工智能是", return_tensors="pt")
outputs = model.generate(
**inputs,
max_new_tokens=120,
do_sample=True,
temperature=0.8,
top_p=0.9,
)
print(tok.decode(outputs[0], skip_special_tokens=True))
这是 base model,没有对话能力。推荐用途是:
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Nwna/olmo3-190m-zh-v2-base")
# 继续做 continue pretrain 或作为 SFT 底座
| 项目 | 值 |
|---|---|
| tokenizer | Nwna/olmo3-190m-zh-v2-tokenizer |
| tokenizer 类型 | 中文 Byte-level BPE |
| vocab size | 48,000 |
| tokenized data | Nwna/olmo3-190m-zh-v2-base-data |
| actual tokens | 3,390,687,394 |
| dtype | uint16 |
数据主要来自:
| 数据源 | 作用 |
|---|---|
| Ultra-FineWeb-zh | 提供通用中文网页文本,覆盖面广 |
| Fineweb-Edu-Chinese-V2.2 | 提供教育类文本,提高知识密度 |
| 项目 | 值 |
|---|---|
| GPU | H100 |
| precision | bf16 |
| attention | SDPA |
| epochs | 1.0 |
| global steps | 12,288 |
| per-device batch | 16 |
| grad accumulation | 8 |
| effective batch | 128 sequences |
| tokens / step | 262,144 |
| peak lr | 5e-4 |
| min lr | 5e-5 |
| scheduler | warmup + cosine |
| optimizer | AdamW |
| weight decay | 0.1,embedding / norm / bias excluded |
| step | eval_loss | eval_ppl |
|---|---|---|
| 4,000 | 4.1429 | 63.0 |
| 8,000 | 3.9029 | 49.5 |
| 12,000 | 3.8042 | 44.9 |
最后 100 条训练日志的 train loss 平均约 3.797。训练结束在 step 12,288,最后一次 eval 发生在 step 12,000。
使用 src/eval.py 的采样生成设置:
max_new_tokens=120
do_sample=True
temperature=0.8
top_p=0.9
repetition_penalty=1.1
| Prompt | 表现 | 观察 |
|---|---|---|
| 人工智能是 | 🟡 | 能生成中文科普段落,但重复与套话明显 |
| 山里有座庙 | 🟡 | 可续写,容易转成虚构的文物/寺庙说明 |
| 今天天气不错,我准备 | 🟡 | 能续写日常文本,但上下文关系混乱 |
| 北京大学位于 | 🔴 | 地理事实不稳定,可能答到错误地点 |
| 四大发明是 | 🔴 | 不能稳定列出正确四大发明 |
| 《红楼梦》人物 | 🔴 | 容易生成标题式重复或人物混杂 |
| Python 是一种 | 🟡 | 知道与编程相关,但定义不稳定 |
do_sample=True 时,同一 prompt 多次生成可能不同。@misc{nwna-olmo3-190m-zh-v2-base,
title={OLMo3-190M-zh-v2-base: Chinese From-Scratch Pretrained Teaching Model},
author={Nwna},
year={2026},
howpublished={\url{https://huggingface.co/Nwna/olmo3-190m-zh-v2-base}},
note={LLM001 Course, Lecture 04 homework}
}