File size: 3,003 Bytes
2f36cf4
16d3497
 
 
 
 
96507bc
122ce5f
96507bc
 
 
16d3497
2f36cf4
96507bc
 
 
 
 
 
 
 
 
 
cdd7cb0
96507bc
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
cdd7cb0
96507bc
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
---
language: zh 
widget:
- text: "今天你的病好点了吗?"
- text: "苹果手机怎么卖?"

tags:
- Text Generation
- gpt2
- pytorch
license: "apache-2.0"

---

# GPT2 for Chinese Dialog Model(gpt2-dialogbot-base-chinese)
GPT2中文对话生成模型

`gpt2-dialogbot-base-chinese` evaluate couplet test data:

The overall performance of GPT2 on dialog **test**:

|input_text|target_text|
|:-- |:--- |
|今天你的病好点了吗?|好多了,谢谢你的关心|

在常见中文闲聊数据集(包含小黄鸡语料、豆瓣语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、PTT八卦语料、青云语料等)上,基本能语义正确的回答问题。

GPT2对话模型的网络结构(原生GPT2):

![arch](gpt2-model.png)

## Usage

本项目开源在对话文本生成项目:[dialogbot](https://github.com/shibing624/dialogbot),可支持GPT2模型,通过如下命令调用:

Install package:
```shell
pip install -U dialogbot
```

```shell
>>> from dialogbot import GPTBot
>>> model = GPTBot("shibing624/gpt2-dialogbot-base-chinese")
>>> r = model.answer("今天你的病好点了吗?")
'好多了,谢谢你的关心'
```


模型文件组成:
```
gpt2-dialogbot-base-chinese
    ├── config.json
    ├── pytorch_model.bin
    └── vocab.txt
```


### 训练数据集
#### 中文对话数据集

### 闲聊语料分享
|中文闲聊语料 | 数据集地址 |语料描述|
|---------|--------|--------|
|常见中文闲聊|[chinese_chatbot_corpus](https://github.com/codemayq/chinese_chatbot_corpus)|包含小黄鸡语料、豆瓣语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、PTT八卦语料、青云语料等|
|50w中文闲聊语料 | [百度网盘【提取码:4g5e】](https://pan.baidu.com/s/1M87Zf9e8iBqqmfTkKBWBWA) 或 [GoogleDrive](https://drive.google.com/drive/folders/1QFRsftLNTR_D3T55mS_FocPEZI7khdST?usp=sharing) |包含50w个多轮对话的原始语料、预处理数据|
|100w中文闲聊语料 | [百度网盘【提取码:s908】](https://pan.baidu.com/s/1TvCQgJWuOoK2f5D95nH3xg) 或 [GoogleDrive](https://drive.google.com/drive/folders/1NU4KLDRxdOGINwxoHGWfVOfP0wL05gyj?usp=sharing)|包含100w个多轮对话的原始语料、预处理数据|



  - [dialogbot](https://github.com/shibing624/dialogbot)
  
  
数据格式:

```text
谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某,还有你
这个某某某用的好

你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊
```


如果需要训练GPT2模型,请参考[https://github.com/shibing624/dialogbot](https://github.com/shibing624/dialogbot)


## Citation

如果你在研究中使用了dialogbot,请按如下格式引用:

```latex
@software{dialogbot,
  author = {Xu Ming},
  title = {dialogbot: Dialogue Model Technology Tool},
  year = {2021},
  url = {https://github.com/shibing624/dialogbot},
}
```