LiquidAI
/

LFM2-350M-PII-Extract-JP

@@ -60,7 +60,7 @@ license_link: LICENSE
 </div>
 </center>
-（[_日本語はこちらへ_](#lfm2-350m-pii-extract-jp-日本語)）
 # LFM2-350M-PII-Extract-JP
@@ -148,17 +148,17 @@ If you are interested in custom solutions with edge deployment, please contact [
 # LFM2-350M-PII-Extract-JP (日本語)
-[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語テキストから個人を特定できる情報（PII）を抽出し、JSON 形式で出力する**ために設計されています。
-出力結果は、契約書、電子メール、個人の医療報告書、保険請求書などの機密情報を、デバイス上で直接マスキングするために使用できます。
-特に以下の情報を抽出するように訓練されています：
 * 住所／所在地（JSON key: `address`）
 * 企業／研究機関／組織名（JSON key: `company_name`）
 * メールアドレス（JSON key: `email_address`）
 * 人名（JSON key: `human_name`）
 * 電話番号（JSON key: `phone_number`）
-これらを日本語の文書やテキストから抽出します。
 ---
@@ -168,24 +168,24 @@ If you are interested in custom solutions with edge deployment, please contact [
 ---
-## 抽出品質
-[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) からランダムに抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル（思考モード有効）など、複数のモデルと比較評価を行いました。
-**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をデバイス上で実現します！
 ![image](https://cdn-uploads.huggingface.co/production/uploads/65d6b6c1a07ad79084a0d214/s1962A7O5ozNZw7HT5jOJ.png)
 > [!NOTE]
-> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII エンティティ抽出性能を発揮しますが、私たちの主な目的は、**柔軟でコミュニティ主導の基盤モデルを提供すること**です。
-> これにより、プライバシー重視の高品質なマスキングシステムを容易に構築できます。
 >
-> ただし、ベースモデルとして今後さらなる発展の余地も残されています。特に以下のような専門的な利用ケースに向けて：
 > - 組織固有の識別番号の抽出対応
 > - 生年月日、パスポート番号などの追加カテゴリへの拡張
-> - 特定カテゴリにおける抽出性能のさらなる向上
 >
 > これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
-> このモデルは最終形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す触媒**であると位置づけています。
 ---
@@ -201,12 +201,12 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number>
 例: `Extract <human_name>` と設定した場合、人名のみを出力します。
 > [!WARNING]
-> ⚠️ 最良の性能を得るには、上記のように **エンティティカテゴリをアルファベット順** に並べてください。
 ---
 **チャットテンプレート**
-LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します：
 <|startoftext|><|im_start|>system
 Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
@@ -218,18 +218,18 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|
 このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
 > [!WARNING]
-> ⚠️ このモデルは **単一ターンの会話** に最適化されています。
 ---
 **出力形式**
-モデルは、指定されたエンティティを含む JSON オブジェクトを出力します。
 各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
-該当する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
-モデルは、**テキスト中に現れる形で正確にエンティティを出力**するように訓練されています。
-同じエンティティが複数回、わずかに異なる書式で現れる場合でも、すべてのバリエーションを出力し、マスキング時に完全一致で処理できるようにします。
 ---

 </div>
 </center>
+（[_日本語はこちらから_](#lfm2-350m-pii-extract-jp-日本語)）
 # LFM2-350M-PII-Extract-JP
 # LFM2-350M-PII-Extract-JP (日本語)
+[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語文書から個人を特定できる情報（PII）を抽出し、JSON 形式で出力します**。
+契約書、電子メール、個人の医療報告書、並びに保険請求書などの機密情報を、デバイス上で直接マスキングできます。
+特に以下の情報を抽出するように訓練されています。
 * 住所／所在地（JSON key: `address`）
 * 企業／研究機関／組織名（JSON key: `company_name`）
 * メールアドレス（JSON key: `email_address`）
 * 人名（JSON key: `human_name`）
 * 電話番号（JSON key: `phone_number`）
+これらの情報を日本語の文書から抽出します。
 ---
 ---
+## 性能
+[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) から無作為に抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル（思考モードあり）など、複数のモデルとの比較評価を行いました。
+**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をあなたのデバイス上で実現します！
 ![image](https://cdn-uploads.huggingface.co/production/uploads/65d6b6c1a07ad79084a0d214/s1962A7O5ozNZw7HT5jOJ.png)
 > [!NOTE]
+> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII 抽出性能を有しますが、私たちの主な目的は、**コミュニティによって継続的に改良される柔軟な基盤モデルを提供すること**です。
+> このモデルで、誰でもプライバシー重視の高品質なマスキングシステムを容易に構築できます。
 >
+> ただし、ベースモデルとして今後さらなる改善の余地があります。特に以下のような専門的な利用用途が想定されます。
 > - 組織固有の識別番号の抽出対応
 > - 生年月日、パスポート番号などの追加カテゴリへの拡張
+> - 特定カテゴリにおける抽出性能のさらなる改善
 >
 > これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
+> LFM2-350M-PII-Extract-JP は完成形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す出発点**であると位置づけています。
 ---
 例: `Extract <human_name>` と設定した場合、人名のみを出力します。
 > [!WARNING]
+> ⚠️ モデルの性能を最大限発揮させるには、上記のように **エンティティカテゴリをアルファベット順** に並べてください。
 ---
 **チャットテンプレート**
+LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します。
 <|startoftext|><|im_start|>system
 Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
 このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
 > [!WARNING]
+> ⚠️ このモデルは **一問一答形式　（単一ターン）　の会話** に最適化されています。
 ---
 **出力形式**
+モデルは、指定されたエンティティを含んだ JSON 形式で出力します。
 各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
+該当するエンティティが存在する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
+モデルは、**テキスト中に現れる形式で正確にエンティティを出力**するように訓練されています。
+同じエンティティが複数回登場し表記に揺れがある場合でも、すべての表記バリエーションを出力し、マスキング時に完全一致で対応できるようになっています。
 ---