Update README.md
Browse files
README.md
CHANGED
|
@@ -60,7 +60,7 @@ license_link: LICENSE
|
|
| 60 |
</div>
|
| 61 |
</center>
|
| 62 |
|
| 63 |
-
([_
|
| 64 |
|
| 65 |
# LFM2-350M-PII-Extract-JP
|
| 66 |
|
|
@@ -148,17 +148,17 @@ If you are interested in custom solutions with edge deployment, please contact [
|
|
| 148 |
|
| 149 |
# LFM2-350M-PII-Extract-JP (日本語)
|
| 150 |
|
| 151 |
-
[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M)
|
| 152 |
-
|
| 153 |
|
| 154 |
-
|
| 155 |
* 住所/所在地(JSON key: `address`)
|
| 156 |
* 企業/研究機関/組織名(JSON key: `company_name`)
|
| 157 |
* メールアドレス(JSON key: `email_address`)
|
| 158 |
* 人名(JSON key: `human_name`)
|
| 159 |
* 電話番号(JSON key: `phone_number`)
|
| 160 |
|
| 161 |
-
|
| 162 |
|
| 163 |
---
|
| 164 |
|
|
@@ -168,24 +168,24 @@ If you are interested in custom solutions with edge deployment, please contact [
|
|
| 168 |
|
| 169 |
---
|
| 170 |
|
| 171 |
-
##
|
| 172 |
|
| 173 |
-
[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs)
|
| 174 |
-
**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5
|
| 175 |
|
| 176 |

|
| 177 |
|
| 178 |
> [!NOTE]
|
| 179 |
-
> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII
|
| 180 |
-
>
|
| 181 |
>
|
| 182 |
-
>
|
| 183 |
> - 組織固有の識別番号の抽出対応
|
| 184 |
> - 生年月日、パスポート番号などの追加カテゴリへの拡張
|
| 185 |
-
> -
|
| 186 |
>
|
| 187 |
> これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
|
| 188 |
-
>
|
| 189 |
|
| 190 |
---
|
| 191 |
|
|
@@ -201,12 +201,12 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number>
|
|
| 201 |
例: `Extract <human_name>` と設定した場合、人名のみを出力します。
|
| 202 |
|
| 203 |
> [!WARNING]
|
| 204 |
-
> ⚠️
|
| 205 |
|
| 206 |
---
|
| 207 |
|
| 208 |
**チャットテンプレート**
|
| 209 |
-
LFM2-PII-Extract-JP は以下のような ChatML
|
| 210 |
|
| 211 |
<|startoftext|><|im_start|>system
|
| 212 |
Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
|
|
@@ -218,18 +218,18 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|
|
|
| 218 |
このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
|
| 219 |
|
| 220 |
> [!WARNING]
|
| 221 |
-
> ⚠️ このモデルは
|
| 222 |
|
| 223 |
---
|
| 224 |
|
| 225 |
**出力形式**
|
| 226 |
|
| 227 |
-
|
| 228 |
各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
|
| 229 |
-
|
| 230 |
|
| 231 |
-
|
| 232 |
-
|
| 233 |
|
| 234 |
---
|
| 235 |
|
|
|
|
| 60 |
</div>
|
| 61 |
</center>
|
| 62 |
|
| 63 |
+
([_日本語はこちらから_](#lfm2-350m-pii-extract-jp-日本語))
|
| 64 |
|
| 65 |
# LFM2-350M-PII-Extract-JP
|
| 66 |
|
|
|
|
| 148 |
|
| 149 |
# LFM2-350M-PII-Extract-JP (日本語)
|
| 150 |
|
| 151 |
+
[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語文書から個人を特定できる情報(PII)を抽出し、JSON 形式で出力します**。
|
| 152 |
+
契約書、電子メール、個人の医療報告書、並びに保険請求書などの機密情報を、デバイス上で直接マスキングできます。
|
| 153 |
|
| 154 |
+
特に以下の情報を抽出するように訓練されています。
|
| 155 |
* 住所/所在地(JSON key: `address`)
|
| 156 |
* 企業/研究機関/組織名(JSON key: `company_name`)
|
| 157 |
* メールアドレス(JSON key: `email_address`)
|
| 158 |
* 人名(JSON key: `human_name`)
|
| 159 |
* 電話番号(JSON key: `phone_number`)
|
| 160 |
|
| 161 |
+
これらの情報を日本語の文書から抽出します。
|
| 162 |
|
| 163 |
---
|
| 164 |
|
|
|
|
| 168 |
|
| 169 |
---
|
| 170 |
|
| 171 |
+
## 性能
|
| 172 |
|
| 173 |
+
[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) から無作為に抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル(思考モードあり)など、複数のモデルとの比較評価を行いました。
|
| 174 |
+
**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をあなたのデバイス上で実現します!
|
| 175 |
|
| 176 |

|
| 177 |
|
| 178 |
> [!NOTE]
|
| 179 |
+
> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII 抽出性能を有しますが、私たちの主な目的は、**コミュニティによって継続的に改良される柔軟な基盤モデルを提供すること**です。
|
| 180 |
+
> このモデルで、誰でもプライバシー重視の高品質なマスキングシステムを容易に構築できます。
|
| 181 |
>
|
| 182 |
+
> ただし、ベースモデルとして今後さらなる改善の余地があります。特に以下のような専門的な利用用途が想定されます。
|
| 183 |
> - 組織固有の識別番号の抽出対応
|
| 184 |
> - 生年月日、パスポート番号などの追加カテゴリへの拡張
|
| 185 |
+
> - 特定カテゴリにおける抽出性能のさらなる改善
|
| 186 |
>
|
| 187 |
> これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
|
| 188 |
+
> LFM2-350M-PII-Extract-JP は完成形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す出発点**であると位置づけています。
|
| 189 |
|
| 190 |
---
|
| 191 |
|
|
|
|
| 201 |
例: `Extract <human_name>` と設定した場合、人名のみを出力します。
|
| 202 |
|
| 203 |
> [!WARNING]
|
| 204 |
+
> ⚠️ モデルの性能を最大限発揮させるには、上記のように **エンティティカテゴリをアルファベット順** に並べてください。
|
| 205 |
|
| 206 |
---
|
| 207 |
|
| 208 |
**チャットテンプレート**
|
| 209 |
+
LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します。
|
| 210 |
|
| 211 |
<|startoftext|><|im_start|>system
|
| 212 |
Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
|
|
|
|
| 218 |
このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
|
| 219 |
|
| 220 |
> [!WARNING]
|
| 221 |
+
> ⚠️ このモデルは **一問一答形式 (単一ターン) の会話** に最適化されています。
|
| 222 |
|
| 223 |
---
|
| 224 |
|
| 225 |
**出力形式**
|
| 226 |
|
| 227 |
+
モデルは、指定されたエンティティを含んだ JSON 形式で出力します。
|
| 228 |
各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
|
| 229 |
+
該当するエンティティが存在する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
|
| 230 |
|
| 231 |
+
モデルは、**テキスト中に現れる形式で正確にエンティティを出力**するように訓練されています。
|
| 232 |
+
同じエンティティが複数回登場し表記に揺れがある場合でも、すべての表記バリエーションを出力し、マスキング時に完全一致で対応できるようになっています。
|
| 233 |
|
| 234 |
---
|
| 235 |
|