Seikaijyu/RWKV6-3B-Chn-UnlimitedRP-mini-chat · 为什么不在Qwen或者Yi上finetune，RWKV效果更好吗？

DokiJourney

5 days ago

如题

Seikaijyu

Owner 5 days ago

其实主要原因如下

我微调RWKV很久了，有一些关于这个架构的知识积累，不太想换
RWKV不会因为上下文增加显存需求，这也是我当初选择RWKV的原因
我的显卡显存太低（只有12G），我当初认为这个显存不够用
可以装逼（不是

Seikaijyu

Owner 5 days ago

不过RWKV的发展非常迅速，也让我非常看好它的未来，所以我后续依然会跟进微调的。
不过我肯定会尝试微调其它架构的模型（特别是qwen和yi，其实我也早就想试试了），不过这要等到我最近半年的换机计划后了。

Seikaijyu

Owner 5 days ago

•

edited 5 days ago

所以总结一下，其实就是

没钱
懒
RWKV也没什么不好的（除了预训练数据少和质量没那么高）

年后会好起来的（指微调qwen之类的模型）.jpg

btaskel

5 days ago

如题
我问过一个作者类似的问题，他的回复如下
总体而言，排行榜评估结果主要衡量大语言模型（LLMs）在英语方面的整体表现。
因此，从这些结果来看，你的观点可能是对的——Qwen 2.5 确实表现出比 Nemo 更强的总体能力。

然而，我有两个理由更倾向于使用 Mistral Nemo：

模型的定位是作为 AI 虚拟伴侣，更注重专业化任务，而非广泛的通用任务。
根据我的经验，相较于 Qwen 2.5，Mistral Nemo 在日语角色扮演方面表现更佳，而这正是我研究的主要方向。
此外，这些评估结果主要测量的是英语能力，而非中文或日语能力。
因此，我将这些结果仅作为参考，用来确认模型在经过微调后，仍然能够保持令人满意的通用聊天能力，符合 AI 虚拟伴侣的定位需求。

综上所述，由于我在具体应用中的“个人体验”，我更倾向于使用 Mistral Nemo。

原文：https://huggingface.co/spow12/ChatWaifu_12B_v2.0/discussions/1#6731995a84f5c89abedf95ae

Seikaijyu

Owner 5 days ago

•

edited 5 days ago

如题
我问过一个作者类似的问题，他的回复如下
总体而言，排行榜评估结果主要衡量大语言模型（LLMs）在英语方面的整体表现。
因此，从这些结果来看，你的观点可能是对的——Qwen 2.5 确实表现出比 Nemo 更强的总体能力。

然而，我有两个理由更倾向于使用 Mistral Nemo：

模型的定位是作为 AI 虚拟伴侣，更注重专业化任务，而非广泛的通用任务。
根据我的经验，相较于 Qwen 2.5，Mistral Nemo 在日语角色扮演方面表现更佳，而这正是我研究的主要方向。
此外，这些评估结果主要测量的是英语能力，而非中文或日语能力。
因此，我将这些结果仅作为参考，用来确认模型在经过微调后，仍然能够保持令人满意的通用聊天能力，符合 AI 虚拟伴侣的定位需求。

综上所述，由于我在具体应用中的“个人体验”，我更倾向于使用 Mistral Nemo。

原文：https://huggingface.co/spow12/ChatWaifu_12B_v2.0/discussions/1#6731995a84f5c89abedf95ae

这段话你是从哪copy的😂
我没理解你想说什么

btaskel

5 days ago

如题
我问过一个作者类似的问题，他的回复如下
总体而言，排行榜评估结果主要衡量大语言模型（LLMs）在英语方面的整体表现。
因此，从这些结果来看，你的观点可能是对的——Qwen 2.5 确实表现出比 Nemo 更强的总体能力。

然而，我有两个理由更倾向于使用 Mistral Nemo：

模型的定位是作为 AI 虚拟伴侣，更注重专业化任务，而非广泛的通用任务。
根据我的经验，相较于 Qwen 2.5，Mistral Nemo 在日语角色扮演方面表现更佳，而这正是我研究的主要方向。
此外，这些评估结果主要测量的是英语能力，而非中文或日语能力。
因此，我将这些结果仅作为参考，用来确认模型在经过微调后，仍然能够保持令人满意的通用聊天能力，符合 AI 虚拟伴侣的定位需求。

综上所述，由于我在具体应用中的“个人体验”，我更倾向于使用 Mistral Nemo。

原文：https://huggingface.co/spow12/ChatWaifu_12B_v2.0/discussions/1#6731995a84f5c89abedf95ae

这段话你是从哪copy的😂
我没理解你想说什么

啊，我复制的格式错误了（大概是翻译了以下我问其它模型作者的问题“为什么不使用qwen这种模型呢？”，然后作者给出的回答，应该对他有帮助就复制过来了）😥

DokiJourney

4 days ago

•

edited 4 days ago

如题
我问过一个作者类似的问题，他的回复如下
总体而言，排行榜评估结果主要衡量大语言模型（LLMs）在英语方面的整体表现。
因此，从这些结果来看，你的观点可能是对的——Qwen 2.5 确实表现出比 Nemo 更强的总体能力。

然而，我有两个理由更倾向于使用 Mistral Nemo：

模型的定位是作为 AI 虚拟伴侣，更注重专业化任务，而非广泛的通用任务。
根据我的经验，相较于 Qwen 2.5，Mistral Nemo 在日语角色扮演方面表现更佳，而这正是我研究的主要方向。
此外，这些评估结果主要测量的是英语能力，而非中文或日语能力。
因此，我将这些结果仅作为参考，用来确认模型在经过微调后，仍然能够保持令人满意的通用聊天能力，符合 AI 虚拟伴侣的定位需求。

综上所述，由于我在具体应用中的“个人体验”，我更倾向于使用 Mistral Nemo。

原文：https://huggingface.co/spow12/ChatWaifu_12B_v2.0/discussions/1#6731995a84f5c89abedf95ae

同意，我自己在SillyTavern上尝试过很多中文的模型，总的来说Qwen和Mistral Nemo的RP效果是最好的。

特别是Magnum的这个finetune模型，就是个戏精（可惜Magnum的新模型看上去不再支持中文了）：

https://huggingface.co/anthracite-org/magnum-v2.5-12b-kto

不过如果是NSFW的内容，Qwen 2.5反而不如Qwen 2，估计是训练的时候去除了不少相关数据集。

Yi的话目前来看好像在中文benchmark上评分最高，但是我试了试RP效果一般。

DokiJourney

4 days ago

•

edited 4 days ago

所以总结一下，其实就是

没钱

懒

RWKV也没什么不好的（除了预训练数据少和质量没那么高）

年后会好起来的（指微调qwen之类的模型）.jpg

能推荐一些NSFW的数据集吗？比如这个repo里面的1G数据：

https://huggingface.co/Seikaijyu/RWKV-5.2-7B-NSFW-Role-16k

我有GPU可以进行finetune，可以测试在Qwen，Mistral，Yi上的效果。

如果有Channel能拉我就更好了，可以一起交流讨论。

Seikaijyu

Owner 4 days ago

所以总结一下，其实就是

没钱

懒

RWKV也没什么不好的（除了预训练数据少和质量没那么高）

年后会好起来的（指微调qwen之类的模型）.jpg

能推荐一些NSFW的数据集吗？比如这个repo里面的1G数据：

https://huggingface.co/Seikaijyu/RWKV-5.2-7B-NSFW-Role-16k

我有GPU可以进行finetune，可以测试在Qwen，Mistral，Yi上的效果。

如果有Channel能拉我就更好了，可以一起交流讨论。

你发的这个模型是我的黑历史，实际上这个模型连数据的十分之一都没练完，此模型是在我刚开始微调的一个月内训练的，当时还租了半个月双卡A40，耻辱啊😓

Seikaijyu

Owner 4 days ago

也就练了5k条

Seikaijyu

Owner 4 days ago

所以总结一下，其实就是

没钱

懒

RWKV也没什么不好的（除了预训练数据少和质量没那么高）

年后会好起来的（指微调qwen之类的模型）.jpg

能推荐一些NSFW的数据集吗？比如这个repo里面的1G数据：

https://huggingface.co/Seikaijyu/RWKV-5.2-7B-NSFW-Role-16k

我有GPU可以进行finetune，可以测试在Qwen，Mistral，Yi上的效果。

如果有Channel能拉我就更好了，可以一起交流讨论。

如果你缺数据集可以考虑看看我的likes，上面有一些我认为不错的优质数据集（仅对于我来说）

francoj

4 days ago

https://huggingface.co/datasets/zxbsmk/webnovel_cn
https://huggingface.co/datasets/qgyd2021/chinese_porn_novel

francoj

4 days ago

所以总结一下，其实就是

没钱

懒

RWKV也没什么不好的（除了预训练数据少和质量没那么高）

年后会好起来的（指微调qwen之类的模型）.jpg

能推荐一些NSFW的数据集吗？比如这个repo里面的1G数据：

https://huggingface.co/Seikaijyu/RWKV-5.2-7B-NSFW-Role-16k

我有GPU可以进行finetune，可以测试在Qwen，Mistral，Yi上的效果。

如果有Channel能拉我就更好了，可以一起交流讨论。

https://huggingface.co/collections/Limour/r18-novels-galgame-6598f16894cadc9cdcb3f3ab

这里有很多，期待你的微调成果。