Leo97 commited on
Commit
bb9d562
1 Parent(s): ae1f6d2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +51 -6
README.md CHANGED
@@ -9,11 +9,18 @@ metrics:
9
  model-index:
10
  - name: KoELECTRA-small-v3-modu-ner
11
  results: []
 
 
 
 
 
 
 
 
 
 
12
  ---
13
 
14
- <!-- This model card has been generated automatically according to the information the Trainer had access to. You
15
- should probably proofread and complete it, then remove this comment. -->
16
-
17
  # KoELECTRA-small-v3-modu-ner
18
 
19
  This model is a fine-tuned version of [monologg/koelectra-small-v3-discriminator](https://huggingface.co/monologg/koelectra-small-v3-discriminator) on an unknown dataset.
@@ -26,15 +33,53 @@ It achieves the following results on the evaluation set:
26
 
27
  ## Model description
28
 
29
- More information needed
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
30
 
31
  ## Intended uses & limitations
32
 
33
- More information needed
 
 
 
 
 
 
 
 
 
 
 
 
 
34
 
35
  ## Training and evaluation data
36
 
37
- More information needed
 
 
38
 
39
  ## Training procedure
40
 
 
9
  model-index:
10
  - name: KoELECTRA-small-v3-modu-ner
11
  results: []
12
+ language:
13
+ - ko
14
+ pipeline_tag: token-classification
15
+ widget:
16
+ - text: "서울역으로 안내해줘."
17
+ example_title: "Example 1"
18
+ - text: "에어컨 온도 3도 올려줘."
19
+ example_title: "Example 2"
20
+ - text: "아이유 노래 검색해줘."
21
+ example_title: "Example 3"
22
  ---
23
 
 
 
 
24
  # KoELECTRA-small-v3-modu-ner
25
 
26
  This model is a fine-tuned version of [monologg/koelectra-small-v3-discriminator](https://huggingface.co/monologg/koelectra-small-v3-discriminator) on an unknown dataset.
 
33
 
34
  ## Model description
35
 
36
+ 태깅 시스템 : BIO 시스템
37
+ - B-(begin) : 개체명이 시작할 때
38
+ - I-(inside) : 토큰이 개체명 중간에 있을 때
39
+ - O(outside) : 토큰이 개체명이 아닐 경우
40
+
41
+ 한국정보통신기술협회(TTA) 대분류 기준을 따르는 15 가지의 태그셋
42
+
43
+ | 분류 | 표기 | 정의 |
44
+ |:------------:|:---:|:-----------|
45
+ | ARTIFACTS | AF | 사람에 의해 창조된 인공물로 문화재, 건물, 악기, 도로, 무기, 운송수단, 작품명, 공산품명이 모두 이에 해당 |
46
+ | ANIMAL | AM | 사람을 제외한 짐승 |
47
+ | CIVILIZATION | CV | 문명/문화 |
48
+ | DATE | DT | 기간 및 계절, 시기/시대 |
49
+ | EVENT | EV | 특정 사건/사고/행사 명칭 |
50
+ | STUDY_FIELD | FD | 학문 분야, 학파 및 유파 |
51
+ | LOCATION | LC | 지역/장소와 지형/지리 명칭 등을 모두 포함 |
52
+ | MATERIAL | MT | 원소 및 금속, 암석/보석, 화학물질 |
53
+ | ORGANIZATION | OG | 기관 및 단체 명칭 |
54
+ | PERSON | PS | 인명 및 인물의 별칭 (유사 인물 명칭 포함) |
55
+ | PLANT | PT | 꽃/나무, 육지식물, 해초류, 버섯류, 이끼류 |
56
+ | QUANTITY | QT | 수량/분량, 순서/순차, 수사로 이루어진 표현 |
57
+ | TIME | TI | 시계상으로 나타나는 시/시각, 시간 범위 |
58
+ | TERM | TM | 타 개체명에서 정의된 세부 개체명 이외의 개체명 |
59
+ | THEORY | TR | 특정 이론, 법칙 원리 등 |
60
 
61
  ## Intended uses & limitations
62
 
63
+ ### How to use
64
+ You can use this model with Transformers *pipeline* for NER.
65
+ ```python
66
+ from transformers import AutoTokenizer, AutoModelForTokenClassification
67
+ from transformers import pipeline
68
+
69
+ tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
70
+ model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
71
+ ner = pipeline("ner", model=model, tokenizer=tokenizer)
72
+
73
+ example = "서울역으로 안내해줘."
74
+ ner_results = ner(example)
75
+ print(ner_results)
76
+ ```
77
 
78
  ## Training and evaluation data
79
 
80
+ 개체명 인식(NER) 모델 학습 데이터 셋
81
+ - 문화체육관광부 > 국립국어원 > 모두의 말뭉치 > 개체명 분석 말뭉치 2021
82
+ - https://corpus.korean.go.kr/request/reausetMain.do
83
 
84
  ## Training procedure
85