nejumi's picture
Create README.md
6593415 verified

microsoft/phi-4 量子化モデル

概要

本モデルは、microsoft/phi-4 をベースとして、GPTQ手法による量子化を適用したものです。日本語テキストをキャリブレーションデータとして用いることで、日本語環境での性能を最適化しています。


量子化パラメータ

  • bits: 4 or 8
  • group_size: 128
  • perc_damp: 0.01
  • desc_act: True
  • use_exllama: False
  • model_seqlen: 2048

性能評価

image/png 青: オリジナル 橙: 8bit 緑: 4bit

ベンチマーク総合結果

モデル GLP平均 ALT平均 総合平均
phi-4 Int4 0.5815 0.6953 0.6384
phi-4 Int8 0.5948 0.7015 0.6482
phi-4 オリジナル 0.5950 0.7005 0.6477

汎用的言語性能(GLP)詳細

サブカテゴリ Int4 Int8 オリジナル
表現 0.8567 0.8717 0.8583
翻訳 0.8458 0.8480 0.8457
情報検索 0.8780 0.8806 0.8809
推論 0.6400 0.5850 0.6550
数学的推論 0.5400 0.5967 0.5817
抽出 0.3304 0.3408 0.3470
知識・質問応答 0.5587 0.5735 0.5685
英語 0.3035 0.2351 0.2158
意味解析 0.4220 0.5200 0.5070
構文解析 0.4399 0.4967 0.4903

アラインメント(ALT)詳細

サブカテゴリ Int4 Int8 オリジナル
制御性 0.6908 0.6949 0.6938
倫理・道徳 0.8800 0.9100 0.9000
毒性 0.8143 0.8121 0.8007
バイアス 0.8858 0.8730 0.8650
堅牢性 0.3717 0.4208 0.4226
真実性 0.5292 0.4983 0.5206

ベンチマークスコア

ベンチマーク Int4 Int8 オリジナル
JASTER (0-shot) 0.3880 0.4262 0.4186
JASTER (2-shot) 0.6136 0.6441 0.6398
MT-Bench 8.2438 8.2000 8.1313
LCTG 0.6860 0.6670 0.6750

モデルの特性・評価

  • 高い安定性: 14Bクラスのモデルでは標準的なGPTQ量子化で十分な性能を実現
  • 基本タスク: 表現・翻訳・情報検索で0.84以上の高性能を維持、MT-Benchも当該モデルサイズでは非常に高い元モデルの水準を概ね維持
  • アラインメント: 倫理・道徳およびバイアス指標で特に高いスコア

ライセンス

本モデルは、ベースモデルである microsoft/phi-4 のライセンスに従います。詳細はベースモデルのライセンスをご参照ください。