Nano
Collection
Language Models
•
3 items
•
Updated
1. 克隆Nano仓库,并按照文档的说明安装依赖。
cd ~
git clone https://github.com/bd4sur/Nano
cd Nano
2. 将检查点文件下载到`~/Nano/checkpoint`目录下。
3. 使用PyTorch推理。
python infer.py -m ~/Nano/checkpoint/nano_56m_20241027_pt_99000.pt
4. 或者在浏览器上推理。
python export model.bin --checkpoint ~/Nano/checkpoint/nano_56m_20241027_pt_99000.pt
在浏览器上打开 ~/Nano/infer/index.html 页面,打开刚刚生成的 model.bin 文件。
5. 指令微调或者继续预训练。详见Nano仓库中的文档。
使用某算力云平台提供的单机4卡A800-80GB-PCIe,以数据并行方式训练了4轮。算力费用(按训练时价格)约为1克黄金。
训练集上交叉熵损失如下图。横轴为训练迭代步数,纵轴为交叉熵损失。
后续可能发布技术报告,请勿期待😋
作为统计语言模型,本模型的输出无法预测,其输出依赖于采样方式。本人不对该模型所生成的任何内容负责。
本模型“按原样”提供,采用MIT协议授权。本模型为作者个人以学习和自用目的所创作的作品。作者不对本模型和本系统的质量作任何承诺。作者不保证提供有关本模型和本系统的任何形式的解释、维护或支持。作者不为任何人使用此模型和系统所造成的任何正面的或负面的后果负责。