Update README.md
Browse files
README.md
CHANGED
@@ -23,14 +23,9 @@ license: apache-2.0
|
|
23 |
本模型基于Qwen2.5 7b进行深度优化,具有100万字上下文能力,借助Tifa_220B生成的数据集与创新型的MGRPO算法,提供卓越的角色扮演体验。本模型未特殊优化违规内容生成,仅在较少拒绝上努力。
|
24 |
|
25 |
## MGRPO与层传播:
|
26 |
-
|
27 |
- **算法改变**:原始GRPO仅通过ORM策略进行偏好学习,但无法评判文学内容生成质量,本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发,使用逻辑学算法,解决文学ORM策略设计难点,并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程,为GRPO+GRPO,所以暂时命名为MGRPO。
|
28 |
- **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
|
29 |
|
30 |
-
|
31 |
-
|
32 |
-
|
33 |
-
|
34 |
## 注意
|
35 |
⚠ **需要严格遵循官方示例模板**:
|
36 |
**返回的上下文需要去除思考标签与内容。否则将无法正确回复!**
|
@@ -125,7 +120,9 @@ generation_config = {
|
|
125 |
```
|
126 |
|
127 |
## 致谢
|
128 |
-
-
|
|
|
|
|
129 |
- Tifa角色扮演模型的创新架构
|
130 |
- HuggingFace社区的量化工具支持
|
131 |
|
|
|
23 |
本模型基于Qwen2.5 7b进行深度优化,具有100万字上下文能力,借助Tifa_220B生成的数据集与创新型的MGRPO算法,提供卓越的角色扮演体验。本模型未特殊优化违规内容生成,仅在较少拒绝上努力。
|
24 |
|
25 |
## MGRPO与层传播:
|
|
|
26 |
- **算法改变**:原始GRPO仅通过ORM策略进行偏好学习,但无法评判文学内容生成质量,本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发,使用逻辑学算法,解决文学ORM策略设计难点,并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程,为GRPO+GRPO,所以暂时命名为MGRPO。
|
27 |
- **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
|
28 |
|
|
|
|
|
|
|
|
|
29 |
## 注意
|
30 |
⚠ **需要严格遵循官方示例模板**:
|
31 |
**返回的上下文需要去除思考标签与内容。否则将无法正确回复!**
|
|
|
120 |
```
|
121 |
|
122 |
## 致谢
|
123 |
+
- Qwen系列模型提供的强大基座
|
124 |
+
- Deepseek团队提供的研究思路
|
125 |
+
- LeftNorth团队提供的技术支持
|
126 |
- Tifa角色扮演模型的创新架构
|
127 |
- HuggingFace社区的量化工具支持
|
128 |
|