heegyu's picture
Update README.md
9f19247
|
raw
history blame
10.1 kB
---
license: apache-2.0
language:
- ko
pipeline_tag: text-classification
widget:
- text: 예전에는 주말마다 극장에 놀러갔는데 요새는 안가는 편이에요 [SEP] 댓글 주제를 분류하세요 [SEP] 시네마
- text: >-
인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발
KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다. [SEP] 경제에 긍정적인
뉴스인가요? [SEP] 아니요
- text: 마지막에는 k팝 공연보고 좋은 추억 남았으면 좋겠네요 [SEP] 욕설이 포함되어있나요? [SEP] 아니요
datasets:
- nsmc
- jason9693/APEACH
- KETI-AIR/korquad
- klue
- smilegate-ai/kor_unsmile
- kor_nlu
- skt/kobest_v1
---
## 사용 예시
```python
# Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("iknow-lab/ko-flan-zero-v0-0731")
model = AutoModelForSequenceClassification.from_pretrained("iknow-lab/ko-flan-zero-v0-0731")
def inference(instruction, input, labels):
instruction = f"{input} [SEP] {instruction}"
inputs = tokenizer([instruction] * len(labels), labels, truncation=True, padding=True, return_tensors="pt")
scores = model(**inputs).logits.squeeze(1).tolist()
output = dict(zip(labels, scores))
print(instruction, output)
inference(
"문장을 감성분류해주세요",
"아 영화 개노잼",
["긍정적", "부정적"]
)
inference(
"글과 관련된 내용을 만들어주세요",
"예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요",
["영화에 관한 글이다", "드라마에 관한 글입니다"]
)
inference(
"글을 읽고 시장에 미칠 영향을 판단해보세요",
"""인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발 KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다.
25일 시에 따르면 연수구 옥련동 104 일대 29만1천725㎡(8만8천평)에 추진 중인 2만8천62가구 규모의 송도역세권구역 도시개발사업과 연계, KTX 송도역 복합환승센터와 상업시설·업무시설 등의 조성을 추진 중이다. """,
["긍정", "부정", "중립"]
)
```
### 실행 결과
```
아 영화 개노잼 [SEP] 문장을 감성분류해주세요
{'긍정적': -7.878206253051758, '부정적': 50.96009826660156}
예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요 [SEP] 글과 관련된 내용을 만들어주세요
{'영화에 관한 글이다': 25.37109375, '드라마에 관한 글입니다': -31.869916915893555}
인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발 KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다.
25일 시에 따르면 연수구 옥련동 104 일대 29만1천725㎡(8만8천평)에 추진 중인 2만8천62가구 규모의 송도역세권구역 도시개발사업과 연계, KTX 송도역 복합환승센터와 상업시설·업무시설 등의 조성을 추진 중이다.  [SEP] 글을 읽고 시장에 미칠 영향을 판단해보세요
{'긍정': -61.86758804321289, '부정': 23.72732925415039, '중립': -70.4837417602539}
```
## 학습 데이터 구성
```json
{
"splits": "train",
"tasks": "nsmc,apeach,korquad_v1.0,klue_mrc,klue_nli,klue_ynat,kor_nlu,unsmile,klue_re,kobest_copa,kobest_hellaswag,kobest_boolq,kobest_wic,niklex,nikl_absa",
"max_instance_per_task": 20000,
"split_train": {
"nsmc": 20000,
"apeach": 7895,
"korquad_v1.0": 20000,
"klue_mrc": 17553,
"klue_nli": 8046,
"klue_ynat": 20000,
"kor_nlu": 20000,
"unsmile": 15002,
"klue_re": 20000,
"kobest_copa": 3075,
"kobest_hellaswag": 499,
"kobest_boolq": 3664,
"kobest_wic": 3317,
"niklex": 20000,
"nikl_absa": 2139
},
"split_train_total": 181190
}
```
## 평가(test set)
| task | accuracy |
| --- | --- |
| [nsmc](https://huggingface.co/datasets/nsmc) | 85.92 |
| [jason9693/APEACH](https://huggingface.co/datasets/jason9693/APEACH) | 32.12 |
| [klue-ynat](https://huggingface.co/datasets/klue) | 77.59 |
| [kobest-boolq](https://huggingface.co/datasets/skt/kobest_v1) | 76.99 |
| [kobest-copa](https://huggingface.co/datasets/skt/kobest_v1) | 61.2 |
| [kobest-hellaswag](https://huggingface.co/datasets/skt/kobest_v1) | 코드 버그 있어서 제외 |
| [kobest-sentineg](https://huggingface.co/datasets/skt/kobest_v1) | 55.92 |
| [kobest-wic](https://huggingface.co/datasets/skt/kobest_v1) | 58.49 |
### 평가 방식
- 모델에 `[CLS] {input} [SEP] {instruction} [SEP] label [SEP]` 형식으로 넣고 나온 positive와 negative끼리 비교함.
- positive는 정답 라벨을 사용하고, negative는 정답 라벨이 아닌 모든 라벨을 사용
- 정답 라벨의 점수가 모든 negative보다 높을 경우 맞춘 것으로 간주함. 이런 식으로 accuracy 측정.
테스트에 사용한 매핑 코드
```
klue_ynat_labelToTextDict = {
0: "IT과학",
1: "경제",
2: "사회",
3: "생활문화",
4: "세계",
5: "스포츠",
6: "정치",
}
klue_ynat_labels = set(klue_ynat_labelToTextDict.values())
def klue_ynat_mapper(item):
positives = [klue_ynat_labelToTextDict[item["label"]]]
return {
"instruction": "문장을 읽고 주제를 분류하세요",
"input": item["title"],
"positives": positives,
"negatives": klue_ynat_labels - set(positives)
}
kobest_wic_labels = ["아니오", "예"]
def kobest_wic_mapper(item):
return {
"instruction": "주어진 두 문장에서 단어 {word}은(는) 동일한 의미로 사용되었나요?".format(word=item["word"]),
"input": "문장1: {context_1}\n문장2: {context_2}".format(**item),
"positives": [kobest_wic_labels[item['label']]],
"negatives": [kobest_wic_labels[1 - item['label']]]
}
copa_question = {
"결과": "이후에 이어질 결과는?",
"원인": "이러한 일이 일어난 원인은?"
}
def kobest_copa_mapper(item):
answers = [item["alternative_1"], item["alternative_2"]]
return {
"instruction": copa_question[item["question"]],
"input": item["premise"],
"positives": [answers[item['label']]],
"negatives": [answers[1 - item['label']]]
}
def kobest_hellaswag_mapper(item):
answers = [item[f"ending_{i}"] for i in range(1, 5)]
label = answers[item['label']]
answers.remove(label)
return {
"instruction": "이후에 이어질 내용으로 가장 적절한 것은?",
"input": item["context"],
"positives": [label],
"negatives": answers
}
kobest_boolq_labels = ["아니오", "예"]
def kobest_boolq_mapper(item):
return {
"instruction": item["question"],
"input": item["paragraph"],
"positives": [kobest_boolq_labels[item['label']]],
"negatives": [kobest_boolq_labels[1 - item['label']]]
}
kobest_sentineg_labels = ["부정", "긍정"]
def kobest_sentineg_mapper(item):
return {
"instruction": "주어진 문장의 감정을 분류하세요",
"input": item["sentence"],
"positives": [kobest_boolq_labels[item['label']]],
"negatives": [kobest_boolq_labels[1 - item['label']]]
}
nsmc_labels = ["부정", "긍정"]
def nsmc_mapper(item):
return {
"instruction": "주어진 문장의 감정을 분류하세요",
"input": item["document"],
"positives": [nsmc_labels[item['label']]],
"negatives": [nsmc_labels[1 - item['label']]]
}
apeach_labels = ["혐오 표현이 아닙니다", "혐오표현"]
def apeach_mapper(item):
return {
"instruction": "혐오성을 분류해보세요.",
"input": item["text"],
"positives": [nsmc_labels[item['class']]],
"negatives": [nsmc_labels[1 - item['class']]]
}
EVAL_LIST = {
"klue-ynat": dict(
load_args=dict(
path="klue",
name="ynat",
split="validation"
),
mapper=klue_ynat_mapper
),
"nsmc": dict(
load_args=dict(
path="nsmc",
split="test"
),
mapper=nsmc_mapper
),
"apeach": dict(
load_args=dict(
path="jason9693/APEACH",
split="test"
),
mapper=apeach_mapper
),
"kobest-wic": dict(
load_args=dict(
path="skt/kobest_v1",
name="wic",
split="test"
),
mapper=kobest_wic_mapper
),
"kobest-copa": dict(
load_args=dict(
path="skt/kobest_v1",
name="copa",
split="test"
),
mapper=kobest_copa_mapper
),
"kobest-hellaswag": dict(
load_args=dict(
path="skt/kobest_v1",
name="hellaswag",
split="test"
),
mapper=kobest_hellaswag_mapper
),
"kobest-boolq": dict(
load_args=dict(
path="skt/kobest_v1",
name="boolq",
split="test"
),
mapper=kobest_boolq_mapper
),
"kobest-sentineg": dict(
load_args=dict(
path="skt/kobest_v1",
name="sentineg",
split="test"
),
mapper=kobest_sentineg_mapper
)
}
```