ZhiLu-2是一款基于llama3微调的中文消费金融领域对话大模型。与ZhiLu相比,ZhiLu-2性能有了显著提升。我们不仅收集了全新的高质量指令数据进行对齐,还创新性地设计了独特的数据合成方法,并将大量合成数据应用于模型训练。通过这些努力,ZhiLu-2在性能上取得了显著的突破,展示了卓越的性能。

训练细节 在第二版的智鹿训练中,我们引入了全新的指令微调数据,并且加入了合成数据。我们相信,合成数据的使用将带来意想不到的惊喜效果。以下是一些重要的训练细节:

🚀 高效训练

我们使用llama-factory作为训练框架,并配备多块A100显卡,通过DeepSpeed(ds)实现数据并行、模型并行、管道并行和张量并行等优化技术。在微调方法的选择上,我们对Full-Rank FT、LORA、BAdam、LoRA+和DoRA进行了详细比较,评估了各方法在训练时间、显卡占用、推理时间和模型性能等多项指标上的表现。最终,我们决定采用DoRA进行微调,以获得最佳的性价比和性能。

⚡ 加速技术

为了提高资源的利用率并缩短训练时间,我们采用了以下两项关键技术:

Packing FlashAttention-2 🔒 安全性与对齐

我们使用 DPO 来训练模型。DPO具有使用便捷、成效快速的优势,可以达到近似RLHF的偏好对齐效果,确保输出的安全和无害。

🛡️ 避免灾难性遗忘

为了防止训练后模型的灾难性遗忘,并平衡模型在各个任务上的能力,我们使用了 merging 技术。

🌱 自我进化

通过设计新的框架,我们使模型能够自我生成训练数据,从而实现自我进化。

更多细节参见:ZhiLu-2-github仓库

Downloads last month
15
Safetensors
Model size
8.03B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.