--- language: zh widget: - text: "今天你的病好点了吗?" - text: "苹果手机怎么卖?" tags: - Text Generation - gpt2 - pytorch license: "apache-2.0" --- # GPT2 for Chinese Dialog Model(gpt2-dialogbot-base-chinese) GPT2中文对话生成模型 `gpt2-dialogbot-base-chinese` evaluate couplet test data: The overall performance of GPT2 on dialog **test**: |input_text|target_text| |:-- |:--- | |今天你的病好点了吗?|好多了,谢谢你的关心| 在常见中文闲聊数据集(包含小黄鸡语料、豆瓣语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、PTT八卦语料、青云语料等)上,基本能语义正确的回答问题。 GPT2对话模型的网络结构(原生GPT2): ![arch](gpt2-model.png) ## Usage 本项目开源在对话文本生成项目:[dialogbot](https://github.com/shibing624/dialogbot),可支持GPT2模型,通过如下命令调用: Install package: ```shell pip install -U dialogbot ``` ```shell >>> from dialogbot import GPTBot >>> model = GPTBot("shibing624/gpt2-dialogbot-base-chinese") >>> r = model.answer("今天你的病好点了吗?") '好多了,谢谢你的关心' ``` 模型文件组成: ``` gpt2-dialogbot-base-chinese ├── config.json ├── pytorch_model.bin └── vocab.txt ``` ### 训练数据集 #### 中文对话数据集 ### 闲聊语料分享 |中文闲聊语料 | 数据集地址 |语料描述| |---------|--------|--------| |常见中文闲聊|[chinese_chatbot_corpus](https://github.com/codemayq/chinese_chatbot_corpus)|包含小黄鸡语料、豆瓣语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、PTT八卦语料、青云语料等| |50w中文闲聊语料 | [百度网盘【提取码:4g5e】](https://pan.baidu.com/s/1M87Zf9e8iBqqmfTkKBWBWA) 或 [GoogleDrive](https://drive.google.com/drive/folders/1QFRsftLNTR_D3T55mS_FocPEZI7khdST?usp=sharing) |包含50w个多轮对话的原始语料、预处理数据| |100w中文闲聊语料 | [百度网盘【提取码:s908】](https://pan.baidu.com/s/1TvCQgJWuOoK2f5D95nH3xg) 或 [GoogleDrive](https://drive.google.com/drive/folders/1NU4KLDRxdOGINwxoHGWfVOfP0wL05gyj?usp=sharing)|包含100w个多轮对话的原始语料、预处理数据| - [dialogbot](https://github.com/shibing624/dialogbot) 数据格式: ```text 谢谢你所做的一切 你开心就好 开心 嗯因为你的心里只有学习 某某某,还有你 这个某某某用的好 你们宿舍都是这么厉害的人吗 眼睛特别搞笑这土也不好捏但就是觉得挺可爱 特别可爱啊 ``` 如果需要训练GPT2模型,请参考[https://github.com/shibing624/dialogbot](https://github.com/shibing624/dialogbot) ## Citation 如果你在研究中使用了dialogbot,请按如下格式引用: ```latex @software{dialogbot, author = {Xu Ming}, title = {dialogbot: Dialogue Model Technology Tool}, year = {2021}, url = {https://github.com/shibing624/dialogbot}, } ```