File size: 2,696 Bytes
dd0003f
 
 
1e17d46
49e013c
374ff96
 
 
dd0003f
 
b21977e
dd0003f
dbc659c
dd0003f
 
 
 
 
 
 
 
 
 
 
d715272
dd0003f
 
10185b9
dd0003f
813de5a
dd0003f
 
e26d766
983299e
29e688f
dbc659c
29e688f
181a280
1cf193f
ee71d5e
 
6239c26
dd0003f
 
49e013c
dbc659c
49e013c
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
---
language: "ja"
widget:
- text: "請求項 <extra_id_0>"
license: "mit"
tags:
- Summarization
- japanese
---

Google's mt5-base fine-tuned in Japanese to summarize patent claims in a limited Pharmaceutical domain.

# 日本語特許請求項要約(医薬特定ドメイン限定)

- """【請求項1】
  ヒトCD38(配列番号1)及びカニクイザルCD38(配列番号2)に特異的に結合する単離された抗体であって、
a)以下を含む重鎖可変領域:
  i)配列番号3を含む第1のCDR;
  ii)配列番号4を含む第2のCDR;
  iii)配列番号5を含む第3のCDR;及び
b)以下を含む軽鎖可変領域:
  i)配列番号6を含む第1のCDR;
  ii)配列番号7を含む第2のCDR;
  iii)配列番号8を含む第3のCDR;
を含む、抗体。(請求項2~19省略)【請求項20】
  前記自己免疫疾患が、関節リウマチ、全身性エリテマトーデス、炎症性腸疾患、潰瘍性大腸炎及び移植片対宿主病からなる群から選択される、請求項19記載の方法。
"""
- →"本発明は、ヒトCD38タンパク質(配列番号0)及びカニクイザルCD38(配列番号2)に特異的に結合する抗体に関する。本発明はまた、ヒトCD38タンパク質(配列番号0)及びカニクイザルCD38(配列番号2)に特異的に結合する抗体を、それを必要とする患者に投与することを含む、自己免疫疾患の治療方法に関する。"

- "-small" has been trained on 20,000 text pairs only. 
- dataset: *
- prefix: "patent claim summarization: " (notice: single task trained.)
- 特定ドメインの2万テキストを用いて要約モデルを作成するとこの程度ですよ,とのお気持ちとして.
- 注意: Hosted inference APIでは要約の一部しか出力されません.使用する際には,Use in Transformersのコードをご自身の環境で実行されることをおすすめします.

# 参考

- https://huggingface.co/blog/how-to-generate
- 前処理が最適ではなかった。修正する。
- 任意に上位概念・下位概念と変換できるようprefixを追加する。
- 任意のテーマに沿った要約とできるようprefixを追加する。
- prefixを追加せずとも、ある程度任意のテーマに沿った要約とすることは可能。請求項の構造を利用する、任意のテーマに沿っているか判定するモデルを用い生成を補正するなど。

**check in progress**

## Licenese
- The MIT license