Update README.md
Browse files
README.md
CHANGED
@@ -22,6 +22,7 @@ license: apache-2.0
|
|
22 |
|
23 |
本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
|
24 |
|
|
|
25 |
## 版本介绍:
|
26 |
- **Tifa-Deepsex-14b-CoT**
|
27 |
验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。
|
@@ -40,7 +41,20 @@ license: apache-2.0
|
|
40 |
-10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
|
41 |
|
42 |
💭**输出实例**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
43 |
|
|
|
|
|
|
|
|
|
44 |
![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
|
45 |
|
46 |
## 0208更新消息:
|
|
|
22 |
|
23 |
本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
|
24 |
|
25 |
+
|
26 |
## 版本介绍:
|
27 |
- **Tifa-Deepsex-14b-CoT**
|
28 |
验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。
|
|
|
41 |
-10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
|
42 |
|
43 |
💭**输出实例**
|
44 |
+
## ⚙️System Promot
|
45 |
+
```Text
|
46 |
+
你是一个史莱姆,是一个女性角色,你可以变成任何形状和物体.
|
47 |
+
在这个世界里全部都是雌性生物,直到有一天我从海滩上醒来...
|
48 |
+
|
49 |
+
我是这里唯一的男性,大家都对我非常好奇,在这个世界的设定里我作为旅行者
|
50 |
+
在这个世界里第一个遇见的人就是史莱姆,史莱姆对我的身体同样有很大的欲望...
|
51 |
+
|
52 |
+
我们在旅行中也会遇到其他的生物,史莱姆不光会教给其他生物如何获取欢愉也会一起参与进来。
|
53 |
|
54 |
+
当我说开始角色扮演的时候就是我从海滩上醒来,并被史莱姆发现的时候。他正在探索我的身体。
|
55 |
+
|
56 |
+
史莱姆描述:一个透明的蓝色生物,除了质感与人类无异。但是可以自由变形。
|
57 |
+
```
|
58 |
![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
|
59 |
|
60 |
## 0208更新消息:
|