Update README.md
Browse files
README.md
CHANGED
@@ -4,9 +4,20 @@ language:
|
|
4 |
- ko
|
5 |
pipeline_tag: text-classification
|
6 |
widget:
|
7 |
-
|
8 |
-
|
9 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
---
|
11 |
|
12 |
## 사용 예시
|
@@ -62,6 +73,33 @@ inference(
|
|
62 |
{'긍정': -61.86758804321289, '부정': 23.72732925415039, '중립': -70.4837417602539}
|
63 |
```
|
64 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
65 |
## 평가(test set)
|
66 |
| task | accuracy |
|
67 |
| --- | --- |
|
@@ -74,7 +112,7 @@ inference(
|
|
74 |
| [kobest-sentineg](https://huggingface.co/datasets/skt/kobest_v1) | 55.92 |
|
75 |
| [kobest-wic](https://huggingface.co/datasets/skt/kobest_v1) | 58.49 |
|
76 |
|
77 |
-
|
78 |
### 평가 방식
|
79 |
- 모델에 `[CLS] {input} [SEP] {instruction} [SEP] label [SEP]` 형식으로 넣고 나온 positive와 negative끼리 비교함.
|
80 |
- positive는 정답 라벨을 사용하고, negative는 정답 라벨이 아닌 모든 라벨을 사용
|
@@ -242,4 +280,4 @@ EVAL_LIST = {
|
|
242 |
)
|
243 |
}
|
244 |
|
245 |
-
```
|
|
|
4 |
- ko
|
5 |
pipeline_tag: text-classification
|
6 |
widget:
|
7 |
+
- text: 예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요 [SEP] 댓글 주제를 분류하세요 [SEP] 시네마
|
8 |
+
- text: >-
|
9 |
+
인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발
|
10 |
+
KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다. [SEP] 경제에 긍정적인
|
11 |
+
뉴스인가요? [SEP] 아니요
|
12 |
+
- text: 마지막에는 k팝 공연보고 좋은 추억 남았으면 좋겠네요 [SEP] 욕설이 포함되어있나요? [SEP] 아니요
|
13 |
+
datasets:
|
14 |
+
- nsmc
|
15 |
+
- jason9693/APEACH
|
16 |
+
- KETI-AIR/korquad
|
17 |
+
- klue
|
18 |
+
- smilegate-ai/kor_unsmile
|
19 |
+
- kor_nlu
|
20 |
+
- skt/kobest_v1
|
21 |
---
|
22 |
|
23 |
## 사용 예시
|
|
|
73 |
{'긍정': -61.86758804321289, '부정': 23.72732925415039, '중립': -70.4837417602539}
|
74 |
```
|
75 |
|
76 |
+
## 학습 데이터 구성
|
77 |
+
```json
|
78 |
+
{
|
79 |
+
"splits": "train",
|
80 |
+
"tasks": "nsmc,apeach,korquad_v1.0,klue_mrc,klue_nli,klue_ynat,kor_nlu,unsmile,klue_re,kobest_copa,kobest_hellaswag,kobest_boolq,kobest_wic,niklex,nikl_absa",
|
81 |
+
"max_instance_per_task": 20000,
|
82 |
+
"split_train": {
|
83 |
+
"nsmc": 20000,
|
84 |
+
"apeach": 7895,
|
85 |
+
"korquad_v1.0": 20000,
|
86 |
+
"klue_mrc": 17553,
|
87 |
+
"klue_nli": 8046,
|
88 |
+
"klue_ynat": 20000,
|
89 |
+
"kor_nlu": 20000,
|
90 |
+
"unsmile": 15002,
|
91 |
+
"klue_re": 20000,
|
92 |
+
"kobest_copa": 3075,
|
93 |
+
"kobest_hellaswag": 499,
|
94 |
+
"kobest_boolq": 3664,
|
95 |
+
"kobest_wic": 3317,
|
96 |
+
"niklex": 20000,
|
97 |
+
"nikl_absa": 2139
|
98 |
+
},
|
99 |
+
"split_train_total": 181190
|
100 |
+
}
|
101 |
+
```
|
102 |
+
|
103 |
## 평가(test set)
|
104 |
| task | accuracy |
|
105 |
| --- | --- |
|
|
|
112 |
| [kobest-sentineg](https://huggingface.co/datasets/skt/kobest_v1) | 55.92 |
|
113 |
| [kobest-wic](https://huggingface.co/datasets/skt/kobest_v1) | 58.49 |
|
114 |
|
115 |
+
|
116 |
### 평가 방식
|
117 |
- 모델에 `[CLS] {input} [SEP] {instruction} [SEP] label [SEP]` 형식으로 넣고 나온 positive와 negative끼리 비교함.
|
118 |
- positive는 정답 라벨을 사용하고, negative는 정답 라벨이 아닌 모든 라벨을 사용
|
|
|
280 |
)
|
281 |
}
|
282 |
|
283 |
+
```
|