kohsei commited on
Commit
e4bc922
·
verified ·
1 Parent(s): 53f5dbb

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +20 -20
README.md CHANGED
@@ -60,7 +60,7 @@ license_link: LICENSE
60
  </div>
61
  </center>
62
 
63
- ([_日本語はこちらへ_](#lfm2-350m-pii-extract-jp-日本語))
64
 
65
  # LFM2-350M-PII-Extract-JP
66
 
@@ -148,17 +148,17 @@ If you are interested in custom solutions with edge deployment, please contact [
148
 
149
  # LFM2-350M-PII-Extract-JP (日本語)
150
 
151
- [**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語テキストから個人を特定できる情報(PII)を抽出し、JSON 形式で出力する**ために設計されています。
152
- 出力結果は、契約書、電子メール、個人の医療報告書、保険請求書などの機密情報を、デバイス上で直接マスキングするために使用できます。
153
 
154
- 特に以下の情報を抽出するように訓練されています:
155
  * 住所/所在地(JSON key: `address`)
156
  * 企業/研究機関/組織名(JSON key: `company_name`)
157
  * メールアドレス(JSON key: `email_address`)
158
  * 人名(JSON key: `human_name`)
159
  * 電話番号(JSON key: `phone_number`)
160
 
161
- これらを日本語の文書やテキストから抽出します。
162
 
163
  ---
164
 
@@ -168,24 +168,24 @@ If you are interested in custom solutions with edge deployment, please contact [
168
 
169
  ---
170
 
171
- ## 抽出品質
172
 
173
- [**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) からランダムに抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル(思考モード有効)など、複数のモデルと比較評価を行いました。
174
- **LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をデバイス上で実現します!
175
 
176
  ![image](https://cdn-uploads.huggingface.co/production/uploads/65d6b6c1a07ad79084a0d214/s1962A7O5ozNZw7HT5jOJ.png)
177
 
178
  > [!NOTE]
179
- > 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII エンティティ抽出性能を発揮しますが、私たちの主な目的は、**柔軟でコミュニティ主導の基盤モデルを提供すること**です。
180
- > これにより、プライバシー重視の高品質なマスキングシステムを容易に構築できます。
181
  >
182
- > ただし、ベースモデルとして今後さらなる発展の余地も残されています。特に以下のような専門的な利用ケースに向けて:
183
  > - 組織固有の識別番号の抽出対応
184
  > - 生年月日、パスポート番号などの追加カテゴリへの拡張
185
- > - 特定カテゴリにおける抽出性能のさらなる向上
186
  >
187
  > これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
188
- > このモデルは最終形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す触媒**であると位置づけています。
189
 
190
  ---
191
 
@@ -201,12 +201,12 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number>
201
  例: `Extract <human_name>` と設定した場合、人名のみを出力します。
202
 
203
  > [!WARNING]
204
- > ⚠️ 最良の性能を得るには、上記のように **エンティティカテゴリをアルファベット順** に並べてください。
205
 
206
  ---
207
 
208
  **チャットテンプレート**
209
- LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します:
210
 
211
  <|startoftext|><|im_start|>system
212
  Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
@@ -218,18 +218,18 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|
218
  このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
219
 
220
  > [!WARNING]
221
- > ⚠️ このモデルは **単一ターンの会話** に最適化されています。
222
 
223
  ---
224
 
225
  **出力形式**
226
 
227
- モデルは、指定されたエンティティを含む JSON オブジェクトを出力します。
228
  各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
229
- 該当する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
230
 
231
- モデルは、**テキスト中に現れる形で正確にエンティティを出力**するように訓練されています。
232
- 同じエンティティが複数回、わずかに異なる書式で現れる場合でも、すべてのバリエーションを出力し、マスキング時に完全一致で処理できるようにします。
233
 
234
  ---
235
 
 
60
  </div>
61
  </center>
62
 
63
+ ([_日本語はこちらから_](#lfm2-350m-pii-extract-jp-日本語))
64
 
65
  # LFM2-350M-PII-Extract-JP
66
 
 
148
 
149
  # LFM2-350M-PII-Extract-JP (日本語)
150
 
151
+ [**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語文書から個人を特定できる情報(PII)を抽出し、JSON 形式で出力します**。
152
+ 契約書、電子メール、個人の医療報告書、並びに保険請求書などの機密情報を、デバイス上で直接マスキングできます。
153
 
154
+ 特に以下の情報を抽出するように訓練されています。
155
  * 住所/所在地(JSON key: `address`)
156
  * 企業/研究機関/組織名(JSON key: `company_name`)
157
  * メールアドレス(JSON key: `email_address`)
158
  * 人名(JSON key: `human_name`)
159
  * 電話番号(JSON key: `phone_number`)
160
 
161
+ これらの情報を日本語の文書から抽出します。
162
 
163
  ---
164
 
 
168
 
169
  ---
170
 
171
+ ## 性能
172
 
173
+ [**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) から無作為に抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル(思考モードあり)など、複数のモデルとの比較評価を行いました。
174
+ **LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をあなたのデバイス上で実現します!
175
 
176
  ![image](https://cdn-uploads.huggingface.co/production/uploads/65d6b6c1a07ad79084a0d214/s1962A7O5ozNZw7HT5jOJ.png)
177
 
178
  > [!NOTE]
179
+ > 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII 抽出性能を有しますが、私たちの主な目的は、**コミュニティによって継続的に改良される柔軟な基盤モデルを提供すること**です。
180
+ > このモデルで、誰でもプライバシー重視の高品質なマスキングシステムを容易に構築できます。
181
  >
182
+ > ただし、ベースモデルとして今後さらなる改善の余地があります。特に以下のような専門的な利用用途が想定されます。
183
  > - 組織固有の識別番号の抽出対応
184
  > - 生年月日、パスポート番号などの追加カテゴリへの拡張
185
+ > - 特定カテゴリにおける抽出性能のさらなる改善
186
  >
187
  > これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
188
+ > LFM2-350M-PII-Extract-JP は完成形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す出発点**であると位置づけています。
189
 
190
  ---
191
 
 
201
  例: `Extract <human_name>` と設定した場合、人名のみを出力します。
202
 
203
  > [!WARNING]
204
+ > ⚠️ モデルの性能を最大限発揮させるには、上記のように **エンティティカテゴリをアルファベット順** に並べてください。
205
 
206
  ---
207
 
208
  **チャットテンプレート**
209
+ LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します。
210
 
211
  <|startoftext|><|im_start|>system
212
  Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
 
218
  このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
219
 
220
  > [!WARNING]
221
+ > ⚠️ このモデルは **一問一答形式 (単一ターン) の会話** に最適化されています。
222
 
223
  ---
224
 
225
  **出力形式**
226
 
227
+ モデルは、指定されたエンティティを含んだ JSON 形式で出力します。
228
  各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
229
+ 該当するエンティティが存在する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
230
 
231
+ モデルは、**テキスト中に現れる形式で正確にエンティティを出力**するように訓練されています。
232
+ 同じエンティティが複数回登場し表記に揺れがある場合でも、すべての表記バリエーションを出力し、マスキング時に完全一致で対応できるようになっています。
233
 
234
  ---
235