FlagAlpha
/

Atom-7B

@@ -45,14 +45,11 @@ Atom-7B完全开源可商用，由Llama中文社区和AtomEcho（原子回声）
 ## 训练过程
-**模型结构**
-基于当前最优秀的开源模型Llama2，使用主流Decoder-only的标准Transformer网络结构，支持4K的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
-**FlashAttention-2高效训练**
-Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时，内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一，相较于传统的注意力技术（Attention），它拥有更快速的速度以及更加优化的内存占用率。
-**基于NTK的自适应上下文扩展技术**
 - 可在不继续训练模型的情况下支持更长的上下文
 - 本项目中模型默认支持4K上下文，利用上述技术可扩展至18K+
 - 经过微调可以支持到32K+

 ## 训练过程
+**模型结构**：基于当前最优秀的开源模型Llama2，使用主流Decoder-only的标准Transformer网络结构，支持4K的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
+**FlashAttention-2高效训练**：Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时，内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一，相较于传统的注意力技术（Attention），它拥有更快速的速度以及更加优化的内存占用率。
+**基于NTK的自适应上下文扩展技术**：
 - 可在不继续训练模型的情况下支持更长的上下文
 - 本项目中模型默认支持4K上下文，利用上述技术可扩展至18K+
 - 经过微调可以支持到32K+