Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

bert/README.md +132 -0
bert/config.json +96 -0
bert/special_tokens_map.json +7 -0
bert/tokenizer_config.json +58 -0
bert/vocab.txt +0 -0

bert/README.md ADDED Viewed

	@@ -0,0 +1,132 @@

+---
+license: mit
+task_categories:
+- token-classification
+- named-entity-recognition
+tags:
+- korean
+- pii
+- privacy
+- masking
+- bert
+language:
+- ko
+pipeline_tag: token-classification
+---
+# Korean PII Masking BERT
+한국어 개인정보(PII, Personally Identifiable Information) 마스킹을 위한 BERT 기반 토큰 분류 모델입니다.
+## 모델 설명
+이 모델은 한국어 텍스트에서 개인정보를 자동으로 감지하고 마스킹하는 용도로 사용됩니다. BERT 기반 아키텍처를 사용하여 14가지 유형의 한국어 PII를 식별합니다.
+## 모델 세부 정보
+- **아키텍처**: BertForTokenClassification
+- **기본 모델**: BERT (Korean)
+- **Hidden Size**: 1024
+- **Num Hidden Layers**: 24
+- **Num Attention Heads**: 16
+- **Max Position Embeddings**: 300
+- **Vocab Size**: 30,000
+## 지원하는 PII 유형
+모델은 다음 14가지 PII 유형을 인식합니다:
+1. **가맹점명** (Business Name)
+2. **결제금액** (Payment Amount)
+3. **계좌번호** (Account Number)
+4. **로그인ID** (Login ID)
+5. **상세주소** (Detailed Address)
+6. **신용점수** (Credit Score)
+7. **여권번호** (Passport Number)
+8. **우편번호** (Postal Code)
+9. **운전면허번호** (Driver's License Number)
+10. **이름** (Name)
+11. **전자메일** (Email)
+12. **전화번호** (Phone Number)
+13. **주민등록번호** (Resident Registration Number)
+14. **카드번호** (Card Number)
+15. **휴대전화번호** (Mobile Phone Number)
+각 PII는 BIO 태깅 방식을 사용합니다 (B-, I-, O).
+## 사용법
+### 기본 사용법
+```python
+from transformers import BertForTokenClassification, BertTokenizer
+import torch
+# 모델 및 토크나이저 로드
+model = BertForTokenClassification.from_pretrained("your-username/korean-pii-masking-bert")
+tokenizer = BertTokenizer.from_pretrained("your-username/korean-pii-masking-bert")
+# 텍스트 토크나이징
+text = "안녕하세요, 제 이름은 김민수이고 전화번호는 010-1234-5678입니다."
+inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
+# 예측
+with torch.no_grad():
+    outputs = model(**inputs)
+    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
+    predicted_labels = torch.argmax(predictions, dim=-1)[0]
+```
+### 파이프라인을 통한 사용
+원본 저장소의 `inference_pipeline.py`를 사용하면 더 간편하게 사용할 수 있습니다:
+```python
+from inference_pipeline import PIIInferencePipeline
+# 파이프라인 초기화
+pipeline = PIIInferencePipeline()
+# 텍스트 예측
+text = "안녕하세요, 제 이름은 김민수이고 전화번호는 010-1234-5678입니다."
+result = pipeline.predict(text)
+print(f"원본 텍스트: {result.original_text}")
+print(f"마스킹 텍스트: {result.masked_text}")
+print(f"발견된 PII: {len(result.entities)}개")
+```
+## 예시
+```
+입력: "8월 10일 14:32에 백다방 코엑스점에서 9,910원 승인 내역 확인됩니다."
+출력:
+- 발견된 PII:
+  - 백다방 코엑스점 -> [가맹점명]
+  - 9,910원 -> [결제금액]
+```
+## 데이터 전처리
+모델은 한국어 텍스트를 입력으로 받으며, 최대 길이는 300 토큰입니다.
+## 제한 사항
+- 최대 입력 길이: 300 토큰
+- 한국어 텍스트에 최적화됨
+- 텍스트에서의 PII 인식에 특화 (이미지나 음성 미지원)
+## 참고 문헌
+이 모델은 한국어 개인정보 마스킹을 위해 학습되었습니다.
+## 라이센스
+MIT License
+## 저자
+Korean PII Masking Project

bert/config.json ADDED Viewed

	@@ -0,0 +1,96 @@

+{
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.2,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "O",
+    "1": "B-\uac00\ub9f9\uc810\uba85",
+    "2": "I-\uac00\ub9f9\uc810\uba85",
+    "3": "B-\uacb0\uc81c\uae08\uc561",
+    "4": "I-\uacb0\uc81c\uae08\uc561",
+    "5": "B-\uacc4\uc88c\ubc88\ud638",
+    "6": "I-\uacc4\uc88c\ubc88\ud638",
+    "7": "B-\ub85c\uadf8\uc778ID",
+    "8": "I-\ub85c\uadf8\uc778ID",
+    "9": "B-\uc0c1\uc138\uc8fc\uc18c",
+    "10": "I-\uc0c1\uc138\uc8fc\uc18c",
+    "11": "B-\uc2e0\uc6a9\uc810\uc218",
+    "12": "I-\uc2e0\uc6a9\uc810\uc218",
+    "13": "B-\uc5ec\uad8c\ubc88\ud638",
+    "14": "I-\uc5ec\uad8c\ubc88\ud638",
+    "15": "B-\uc6b0\ud3b8\ubc88\ud638",
+    "16": "I-\uc6b0\ud3b8\ubc88\ud638",
+    "17": "B-\uc6b4\uc804\uba74\ud5c8\ubc88\ud638",
+    "18": "I-\uc6b4\uc804\uba74\ud5c8\ubc88\ud638",
+    "19": "B-\uc774\ub984",
+    "20": "I-\uc774\ub984",
+    "21": "B-\uc804\uc790\uba54\uc77c",
+    "22": "I-\uc804\uc790\uba54\uc77c",
+    "23": "B-\uc804\ud654\ubc88\ud638",
+    "24": "I-\uc804\ud654\ubc88\ud638",
+    "25": "B-\uc8fc\ubbfc\ub4f1\ub85d\ubc88\ud638",
+    "26": "I-\uc8fc\ubbfc\ub4f1\ub85d\ubc88\ud638",
+    "27": "B-\uce74\ub4dc\ubc88\ud638",
+    "28": "I-\uce74\ub4dc\ubc88\ud638",
+    "29": "B-\ud734\ub300\uc804\ud654\ubc88\ud638",
+    "30": "I-\ud734\ub300\uc804\ud654\ubc88\ud638"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "B-\uac00\ub9f9\uc810\uba85": 1,
+    "B-\uacb0\uc81c\uae08\uc561": 3,
+    "B-\uacc4\uc88c\ubc88\ud638": 5,
+    "B-\ub85c\uadf8\uc778ID": 7,
+    "B-\uc0c1\uc138\uc8fc\uc18c": 9,
+    "B-\uc2e0\uc6a9\uc810\uc218": 11,
+    "B-\uc5ec\uad8c\ubc88\ud638": 13,
+    "B-\uc6b0\ud3b8\ubc88\ud638": 15,
+    "B-\uc6b4\uc804\uba74\ud5c8\ubc88\ud638": 17,
+    "B-\uc774\ub984": 19,
+    "B-\uc804\uc790\uba54\uc77c": 21,
+    "B-\uc804\ud654\ubc88\ud638": 23,
+    "B-\uc8fc\ubbfc\ub4f1\ub85d\ubc88\ud638": 25,
+    "B-\uce74\ub4dc\ubc88\ud638": 27,
+    "B-\ud734\ub300\uc804\ud654\ubc88\ud638": 29,
+    "I-\uac00\ub9f9\uc810\uba85": 2,
+    "I-\uacb0\uc81c\uae08\uc561": 4,
+    "I-\uacc4\uc88c\ubc88\ud638": 6,
+    "I-\ub85c\uadf8\uc778ID": 8,
+    "I-\uc0c1\uc138\uc8fc\uc18c": 10,
+    "I-\uc2e0\uc6a9\uc810\uc218": 12,
+    "I-\uc5ec\uad8c\ubc88\ud638": 14,
+    "I-\uc6b0\ud3b8\ubc88\ud638": 16,
+    "I-\uc6b4\uc804\uba74\ud5c8\ubc88\ud638": 18,
+    "I-\uc774\ub984": 20,
+    "I-\uc804\uc790\uba54\uc77c": 22,
+    "I-\uc804\ud654\ubc88\ud638": 24,
+    "I-\uc8fc\ubbfc\ub4f1\ub85d\ubc88\ud638": 26,
+    "I-\uce74\ub4dc\ubc88\ud638": 28,
+    "I-\ud734\ub300\uc804\ud654\ubc88\ud638": 30,
+    "O": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 300,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30000
+}

bert/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

bert/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 300,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

bert/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff