一个用 chatglm-6b 微调训练的例子

#34

by wdkwdkwdk - opened Apr 10, 2023

Discussion

wdkwdkwdk

Apr 10, 2023

https://greatdk.com/1908.html

采用了10万条微信聊天记录和280篇文章作为训练数据，训练数字克隆人，训练结果还是挺不错的，大家可以用 https://ai.greatdk.com 试试看

（我是文章作者，大家有问题可以多交流～，chatglm还是很给力的）

yunhaiyidao

Apr 13, 2023

老铁，有那个demo吗，自己完全跑的，chat的train

lale314

Apr 17, 2023

请问你是怎么把280篇文章的数据构造成指令数据的？

wdkwdkwdk

Apr 17, 2023

请问你是怎么把280篇文章的数据构造成指令数据的？

我放到这个 repo 里了：https://github.com/wdkwdkwdk/CLONE_DK ( https://github.com/wdkwdkwdk/CLONE_DK/blob/main/blog_handle_readme.md )

Picaa

Apr 18, 2023

您好请问一下模型融合有相关资料可以分享一下嘛十分感谢

carlosbdw

Apr 27, 2023

Hello @wdkwdkwdk ，我按照ChatGLM-6B的README微调了那个时装的数据，之后加载checkpoint后它就只会回答服装的问题了，请问这个是符合预期的吗？还是原来的教程有误？按我的理解，加入了一些新数据训练后，原来的知识应该不会受到太大影响。你的模型训练后是怎么融合的？

wdkwdkwdk

Apr 27, 2023

Hello @wdkwdkwdk ，我按照ChatGLM-6B的README微调了那个时装的数据，之后加载checkpoint后它就只会回答服装的问题了，请问这个是符合预期的吗？还是原来的教程有误？按我的理解，加入了一些新数据训练后，原来的知识应该不会受到太大影响。你的模型训练后是怎么融合的？

肯定会受影响的，知识储存在参数里，现在一部分参数变了，知识也会变

carlosbdw

Apr 27, 2023

所以你微调之后，它之前能回答的问题也不能回答了？

jack0x75

Apr 27, 2023

你好，请问你训练这个模型用了多长时间呢，还有硬件配置大概是什么水平，谢谢

wdkwdkwdk

May 6, 2023

所以你微调之后，它之前能回答的问题也不能回答了？

对，之前的很多能力受到影响了，但这也从某种角度让它更像人一点，说的不是那种AI风格的车轱辘话

wdkwdkwdk

May 6, 2023

你好，请问你训练这个模型用了多长时间呢，还有硬件配置大概是什么水平，谢谢

V100，我训练了很多版本，然后做融合测试，用聊天记录训练大约是12-20个小时，用博客文章训练是1-5个小时

MOSS550V

May 21, 2023

你好，请问你训练这个模型用了多长时间呢，还有硬件配置大概是什么水平，谢谢

V100，我训练了很多版本，然后做融合测试，用聊天记录训练大约是12-20个小时，用博客文章训练是1-5个小时

请问有个简易的教程吗？有点想知道是如何通过第一次微调生成的checkpoint继续微调的。

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

Your need to confirm your account before you can post a new comment.

· Sign up or log in to comment