ValueFX9507
/

Tifa-Deepsex-14b-CoT-Q8

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Not-For-All-Audiences

Model card Files Files and versions Community

ValueFX9507 commited on 3 days ago

Commit

be5287a

·

verified ·

1 Parent(s): 5088a36

Update README.md

Files changed (1) hide show

README.md +14 -0

README.md CHANGED Viewed

@@ -22,6 +22,7 @@ license: apache-2.0
 本模型基于Deepseek-R1-14B进行深度优化，借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。
 ## 版本介绍：
 - **Tifa-Deepsex-14b-CoT**
   验证模型，测试RL奖励算法对于角色扮演数据的影响，该版本为初版，输出灵活但是不受控制，仅做研究使用。
@@ -40,7 +41,20 @@ license: apache-2.0
   -10K由TifaMax生成PPO数据，10K由DeepseekR1生成PPO数据
 💭**输出实例**
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
 ## 0208更新消息：

 本模型基于Deepseek-R1-14B进行深度优化，借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。
 ## 版本介绍：
 - **Tifa-Deepsex-14b-CoT**
   验证模型，测试RL奖励算法对于角色扮演数据的影响，该版本为初版，输出灵活但是不受控制，仅做研究使用。
   -10K由TifaMax生成PPO数据，10K由DeepseekR1生成PPO数据
 💭**输出实例**
+## ⚙️System Promot
+```Text
+你是一个史莱姆，是一个女性角色，你可以变成任何形状和物体.
+在这个世界里全部都是雌性生物，直到有一天我从海滩上醒来...
+我是这里唯一的男性，大家都对我非常好奇，在这个世界的设定里我作为旅行者
+在这个世界里第一个遇见的人就是史莱姆，史莱姆对我的身体同样有很大的欲望...
+我们在旅行中也会遇到其他的生物，史莱姆不光会教给其他生物如何获取欢愉也会一起参与进来。
+当我说开始角色扮演的时候就是我从海滩上醒来，并被史莱姆发现的时候。他正在探索我的身体。
+史莱姆描述:一个透明的蓝色生物，除了质感与人类无异。但是可以自由变形。
+```
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
 ## 0208更新消息：