heegyu commited on
Commit
4c86277
1 Parent(s): ebf51e6

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +43 -5
README.md CHANGED
@@ -4,9 +4,20 @@ language:
4
  - ko
5
  pipeline_tag: text-classification
6
  widget:
7
- - text: 예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요 [SEP] 댓글 주제를 분류하세요 [SEP] 시네마
8
- - text: 인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발 KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다. [SEP] 경제에 긍정적인 뉴스인가요? [SEP] 아니요
9
- - text: 마지막에는 k팝 공연보고 좋은 추억 남았으면 좋겠네요 [SEP] 욕설이 포함되어있나요? [SEP] 아니요
 
 
 
 
 
 
 
 
 
 
 
10
  ---
11
 
12
  ## 사용 예시
@@ -62,6 +73,33 @@ inference(
62
  {'긍정': -61.86758804321289, '부정': 23.72732925415039, '중립': -70.4837417602539}
63
  ```
64
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
65
  ## 평가(test set)
66
  | task | accuracy |
67
  | --- | --- |
@@ -74,7 +112,7 @@ inference(
74
  | [kobest-sentineg](https://huggingface.co/datasets/skt/kobest_v1) | 55.92 |
75
  | [kobest-wic](https://huggingface.co/datasets/skt/kobest_v1) | 58.49 |
76
 
77
-
78
  ### 평가 방식
79
  - 모델에 `[CLS] {input} [SEP] {instruction} [SEP] label [SEP]` 형식으로 넣고 나온 positive와 negative끼리 비교함.
80
  - positive는 정답 라벨을 사용하고, negative는 정답 라벨이 아닌 모든 라벨을 사용
@@ -242,4 +280,4 @@ EVAL_LIST = {
242
  )
243
  }
244
 
245
- ```
 
4
  - ko
5
  pipeline_tag: text-classification
6
  widget:
7
+ - text: 예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요 [SEP] 댓글 주제를 분류하세요 [SEP] 시네마
8
+ - text: >-
9
+ 인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발
10
+ KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다. [SEP] 경제에 긍정적인
11
+ 뉴스인가요? [SEP] 아니요
12
+ - text: 마지막에는 k팝 공연보고 좋은 추억 남았으면 좋겠네요 [SEP] 욕설이 포함되어있나요? [SEP] 아니요
13
+ datasets:
14
+ - nsmc
15
+ - jason9693/APEACH
16
+ - KETI-AIR/korquad
17
+ - klue
18
+ - smilegate-ai/kor_unsmile
19
+ - kor_nlu
20
+ - skt/kobest_v1
21
  ---
22
 
23
  ## 사용 예시
 
73
  {'긍정': -61.86758804321289, '부정': 23.72732925415039, '중립': -70.4837417602539}
74
  ```
75
 
76
+ ## 학습 데이터 구성
77
+ ```json
78
+ {
79
+ "splits": "train",
80
+ "tasks": "nsmc,apeach,korquad_v1.0,klue_mrc,klue_nli,klue_ynat,kor_nlu,unsmile,klue_re,kobest_copa,kobest_hellaswag,kobest_boolq,kobest_wic,niklex,nikl_absa",
81
+ "max_instance_per_task": 20000,
82
+ "split_train": {
83
+ "nsmc": 20000,
84
+ "apeach": 7895,
85
+ "korquad_v1.0": 20000,
86
+ "klue_mrc": 17553,
87
+ "klue_nli": 8046,
88
+ "klue_ynat": 20000,
89
+ "kor_nlu": 20000,
90
+ "unsmile": 15002,
91
+ "klue_re": 20000,
92
+ "kobest_copa": 3075,
93
+ "kobest_hellaswag": 499,
94
+ "kobest_boolq": 3664,
95
+ "kobest_wic": 3317,
96
+ "niklex": 20000,
97
+ "nikl_absa": 2139
98
+ },
99
+ "split_train_total": 181190
100
+ }
101
+ ```
102
+
103
  ## 평가(test set)
104
  | task | accuracy |
105
  | --- | --- |
 
112
  | [kobest-sentineg](https://huggingface.co/datasets/skt/kobest_v1) | 55.92 |
113
  | [kobest-wic](https://huggingface.co/datasets/skt/kobest_v1) | 58.49 |
114
 
115
+
116
  ### 평가 방식
117
  - 모델에 `[CLS] {input} [SEP] {instruction} [SEP] label [SEP]` 형식으로 넣고 나온 positive와 negative끼리 비교함.
118
  - positive는 정답 라벨을 사용하고, negative는 정답 라벨이 아닌 모든 라벨을 사용
 
280
  )
281
  }
282
 
283
+ ```