ValueFX9507
/

Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Model card Files Files and versions Community

ValueFX9507 commited on 12 days ago

Commit

8c776e1

·

verified ·

1 Parent(s): d489e9b

Update README.md

Files changed (1) hide show

README.md +3 -6

README.md CHANGED Viewed

@@ -23,14 +23,9 @@ license: apache-2.0
 本模型基于Qwen2.5 7b进行深度优化，具有100万字上下文能力，借助Tifa_220B生成的数据集与创新型的MGRPO算法，提供卓越的角色扮演体验。本模型未特殊优化违规内容生成，仅在较少拒绝上努力。
 ## MGRPO与层传播：
 - **算法改变**：原始GRPO仅通过ORM策略进行偏好学习，但无法评判文学内容生成质量，本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发，使用逻辑学算法，解决文学ORM策略设计难点，并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程，为GRPO+GRPO，所以暂时命名为MGRPO。
 - **构架改变**：尝试改变Transformers传播方式，在层内循环处理进行训练，受到Universal Transformers与最新潜空间启发，在训练中让部分层循环激活，为了避免梯度爆炸使用梯度裁切技术，测试发现模型性能得到提升，更多工作还在测试中。
 ## 注意
 ⚠ **需要严格遵循官方示例模板**：
 **返回的上下文需要去除思考标签与内容。否则将无法正确回复！**
@@ -125,7 +120,9 @@ generation_config = {
 ```
 ## 致谢
-- Deepseek系列模型提供的强大基座
 - Tifa角色扮演模型的创新架构
 - HuggingFace社区的量化工具支持

 本模型基于Qwen2.5 7b进行深度优化，具有100万字上下文能力，借助Tifa_220B生成的数据集与创新型的MGRPO算法，提供卓越的角色扮演体验。本模型未特殊优化违规内容生成，仅在较少拒绝上努力。
 ## MGRPO与层传播：
 - **算法改变**：原始GRPO仅通过ORM策略进行偏好学习，但无法评判文学内容生成质量，本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发，使用逻辑学算法，解决文学ORM策略设计难点，并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程，为GRPO+GRPO，所以暂时命名为MGRPO。
 - **构架改变**：尝试改变Transformers传播方式，在层内循环处理进行训练，受到Universal Transformers与最新潜空间启发，在训练中让部分层循环激活，为了避免梯度爆炸使用梯度裁切技术，测试发现模型性能得到提升，更多工作还在测试中。
 ## 注意
 ⚠ **需要严格遵循官方示例模板**：
 **返回的上下文需要去除思考标签与内容。否则将无法正确回复！**
 ```
 ## 致谢
+- Qwen系列模型提供的强大基座
+- Deepseek团队提供的研究思路
+- LeftNorth团队提供的技术支持
 - Tifa角色扮演模型的创新架构
 - HuggingFace社区的量化工具支持