🛡️ Mô hình BiLSTM-CRF nhận diện Thông tin Cá nhân (PII) Tiếng Việt

Đây là kiến trúc mạng nơ-ron hồi quy hai chiều kết hợp với trường ngẫu nhiên có điều kiện (BiLSTM-CRF) được huấn luyện cho bài toán nhận diện thực thể (Named Entity Recognition - NER) nhằm trích xuất các Thông tin cá nhân (PII) trong văn bản tiếng Việt.

Việc tích hợp thêm lớp CRF (Conditional Random Field) trên cùng giúp mô hình học được các ràng buộc về mặt chuỗi từ vựng (ví dụ: nhãn I-PER luôn phải đi theo sau B-PER), từ đó khắc phục các dự đoán vô lý và nâng cao độ chính xác so với kiến trúc BiLSTM thuần.

Mô hình này là một phần trong dự án nghiên cứu so sánh hiệu năng giữa 4 kiến trúc học sâu (BiLSTM, BiLSTM-CRF, PhoBERT, và XLM-R) cho tác vụ ẩn danh hóa thông tin cá nhân. Dự án được thực hiện bởi Tăng Hoàng Phúc (Sinh viên chuyên ngành Trí tuệ Nhân tạo - Đại học CNTT, ĐHQG TP.HCM).

📊 Thông tin mô hình

Kiến trúc: BiLSTM-CRF (Custom PyTorch Model)
Ngôn ngữ: Tiếng Việt
Tác vụ: Token Classification (NER)
Số lượng nhãn: Phân loại và nhận diện 54 nhãn PII khác nhau (Tên người, CCCD, Email, Số điện thoại, Địa chỉ...).

⚙️ Lưu ý sử dụng (Inference)

Vì đây là mô hình được xây dựng thủ công (Custom Architecture) bằng PyTorch chứ không thuộc chuẩn transformers của Hugging Face, khung test tự động (Hosted Inference API) sẽ không hoạt động.

Repository này được sử dụng để lưu trữ file từ điển (vocab/config) và trọng số (.pth). Để xem demo kết quả chạy của mô hình này, vui lòng tham khảo mã nguồn Inference trong file Notebook/Colab của dự án, ở đó các trọng số sẽ được tải trực tiếp từ Hub về để thực thi.

🚀 Ví dụ đầu vào

"Căn cước công dân của Nguyễn Văn A là 079201123456, số điện thoại 0972836728, địa chỉ 123 đường Lê Lợi, Quận 1."

Downloads last month: 23