File size: 2,221 Bytes
0b04eaf
641cf80
 
de0aece
818eb8f
ea0704a
0b04eaf
ea0704a
cb88bdb
 
 
 
 
 
 
 
 
 
 
ea0704a
cbc0396
 
 
 
 
 
 
 
 
 
 
d163b79
cbc0396
 
ea0704a
c65012e
ea0704a
 
c65012e
ea0704a
d04e9c1
 
 
ea0704a
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
---
language:
- ja
widget:
- text: 株式会社Jurabiは、東京都台東区に本社を置くIT企業である。
license: cc-by-sa-3.0
---
# BERTによる日本語固有表現抽出のモデル
[BertForTokenClassification](https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertForTokenClassification)を用いて、日本語の文から固有表現を抽出します。

抽出される固有表現のタイプは、以下の8種類です。
- 人名
- 法人名(法人または法人に類する組織)
- 政治的組織名(政治的組織名、政党名、政府組織名、行政組織名、軍隊名、国際組織名)
- その他の組織名	(競技組織名、公演組織名、その他)
- 地名	
- 施設名
- 製品名(商品名、番組名、映画名、書籍名、歌名、ブランド名等)
- イベント名

## 使用方法
必要なライブラリ(transformers、unidic_lite、fugashi)をpipなどでインストールして、下記のコードを実行するだけです。

```python
from transformers import BertJapaneseTokenizer, BertForTokenClassification
from transformers import pipeline

model = BertForTokenClassification.from_pretrained("jurabi/bert-ner-japanese")
tokenizer = BertJapaneseTokenizer.from_pretrained("jurabi/bert-ner-japanese")

ner_pipeline = pipeline('ner', model=model, tokenizer=tokenizer)
ner_pipeline("株式会社Jurabiは、東京都台東区に本社を置くIT企業である。")
```

## 事前学習モデル
東北大学乾研究室が公開している日本語BERTモデル([cl-tohoku/bert-base-japanese-v2](https://huggingface.co/cl-tohoku/bert-base-japanese-v2))

## 学習データ
ストックマーク株式会社が公開しているWikipediaを用いた日本語の固有表現抽出データセット([stockmarkteam/ner-wikipedia-dataset](https://github.com/stockmarkteam/ner-wikipedia-dataset))

## ソースコード
ファインチューニングに使用したプログラムは、[jurabiinc/bert-ner-japanese](https://github.com/jurabiinc/bert-ner-japanese)で公開しています。

## ライセンス
[Creative Commons Attribution-ShareAlike 3.0](https://creativecommons.org/licenses/by-sa/3.0/)