File size: 2,197 Bytes
aa286dd
ef3f69a
f8b2ddb
 
aa286dd
ef3f69a
 
 
 
29cbfbb
 
ef3f69a
 
 
 
9ad5dfa
ef3f69a
9ad5dfa
ef3f69a
 
9ad5dfa
ef3f69a
9ad5dfa
ef3f69a
 
 
 
 
 
 
 
 
 
 
9ad5dfa
 
 
ef3f69a
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
---
license: cc-by-nc-sa-4.0
widget:
- text: "0: 안녕하세요?\n1: 반갑습니다.\n0: 지금 뭐 하고 계세요?\n1: "
---

[skt/kogpt2-base-v2](https://huggingface.co/skt/kogpt2-base-v2)를 공개된 한국어 대화 데이터셋으로 파인튜닝한 모델입니다.<br/>
- AIHub 주제별대화, 트위터, 감정대화, SNS대화
- 국립국어원 모두의 말뭉치 온라인대화
- 이전에 제가 만든 [kodialogpt-v0](https://huggingface.co/heegyu/kodialogpt)는 AIHub 주제별대화 8만건 가량만을 이용했지만, 이 모델은 총 170만개의 대화 데이터를 갖고 1에폭 학습시킨 모델입니다.
- 학습 코드: https://github.com/HeegyuKim/open-domain-dialog<br/>


## 사용예시
```
generator = pipeline("text-generation", model="heegyu/kodialogpt-v1")
generation_args = dict(
    repetition_penalty=1.3,
    no_repeat_ngram_size=4,
    eos_token_id=375, # \n
    max_new_tokens=32,
    do_sample=True,
    top_p=0.7,
    early_stopping=True
)
generator(
    ["0 : **는 게임 좋아하니\n1 :",
    "0 : 어제 강남에서 살인사건 났대 ㅜㅜ 너무 무서워\n1 : 헐 왜? 무슨 일 있었어?\n0 : 사진보니까 막 피흘리는 사람있고 경찰들이 떠서 제압하고 난리도 아니었다던데??\n1 :",
    "0 : 자기야 어제는 나한테 왜 그랬어?\n1 : 뭔 일 있었어?\n0 : 어떻게 나한테 말도 없이 그럴 수 있어? 나 진짜 실망했어\n1 : "],
    **generation_args
)
```
결과
```
[[{'generated_text': '0 : **는 게임 좋아하니\n1 : 엉... 게임은 맨날 하는데  내일도 하겠지...? ᄏᄏ'}],
 [{'generated_text': '0 : 어제 강남에서 살인사건 났대 ㅜㅜ 너무 무서워\n1 : 헐 왜? 무슨 일 있었어?\n0 : 사진보니까 막 피흘리는 사람있고 경찰들이 떠서 제압하고 난리도 아니었다던데??\n1 : 와 대박이네... 그게 가능하다니.. 얼마나 무섭고 놀라울까..'}],
 [{'generated_text': '0 : 자기야 어제는 나한테 왜 그랬어?\n1 : 뭔 일 있었어?\n0 : 어떻게 나한테 말도 없이 그럴 수 있어? 나 진짜 실망했어\n1 : ᄏᄏ뭐가? 누가?'}]]
 ```

학습에 사용한 하이퍼파라미터