Edit model card

c4ai-command-r-v01-japanese-instruct

GGUF版はこちら/Click here for the GGUF version

概要

CohereForAI/c4ai-command-r-v01を、ichikara-instructionを使って追加で日本語インストラクションチューニングを施したモデルです。

学習の設定

RunpodでGPUサーバを借り、A6000x4で学習を行いました。主な学習パラメータは以下の通りです。

  • lora_r: 64
  • lisa_alpha: 128
  • lora_dropout: 0.05
  • lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
  • learning_rate: 2e-5
  • num_train_epochs: 10epochs
  • batch_size: 50
  • max_seq_length: 2048

評価

jsquad(jsquad-1.1-0.3, 2-shots)、jcommonsenseqa(jcommonsenseqa-1.1-0.3, 3-shots)、jnli(jnli-1.3-0.3, 3-shots)、marc_ja(marc_ja-1.1-0.3, 3-shots)結果は以下の通りです。 (8ビット量子化/jsquadは100で割り、それぞれ小数点以下第4位を四捨五入)

平均スコアの向上が見受けられます。

Model jsquad(exact_match) jcommonsenseqa(acc) jnli(acc) marc_ja(acc) average
c4ai-command-r-v01 0.809 0.902 0.466 0.954 0.783
c4ai-command-r-v01-japanese-instruct 0.836 0.911 0.537 0.940 0.806

評価にはlm-evaluation-harnessを利用しました。

また、元モデルと本モデルのjapanese-mt-benchの結果は以下の通りです。(シングルターン、4ビット量子化)

スコア的にはあまり変わりませんでした。ただし、元モデルの出力の中には時々英語が混ざっていましたが、目視で確認した範囲だと混ざらなくなっていたので学習の効果は多少はありそうです。

Model Coding Extraction Humanities Math Reasoning Roleplay STEM Writing avg_score
c4ai-command-r-v01 6.1 7.9 9.7 2.4 6.0 8.3 9.8 8.6 7.35
c4ai-command-r-v01-japanese-instruct 5.6 8.3 8.1 3.4 6.1 7.9 9.2 8.6 7.15

レーダーチャート

余談ですが、英語ベンチマークであるOpen LLM Leaderboardのスコアもなぜかわずかに向上していました。 詳細

Metric c4ai-command-r-v01 c4ai-command-r-v01-japanese-instruct
Avg. 68.54 68.85
AI2 Reasoning Challenge (25-Shot) 65.53 65.87
HellaSwag (10-Shot) 87 85.62
MMLU (5-Shot) 68.2 67.61
TruthfulQA (0-shot) 52.32 51.01
Winogrande (5-shot) 81.53 82.95
GSM8k (5-shot) 56.63 60.05

ライセンス

元モデルであるCohereForAI/c4ai-command-r-v01はCC-BY-NC 4.0とC4AI's Acceptable Use Policyのもとに配布されています。

また、ファインチューニングに利用したデータセットであるichikara-instructionはCC-BY-NC-SA 4.0の元配布されています。

そのため、このモデルのライセンスはCC-BY-NC-SA 4.0及びC4AI's Acceptable Use Policyとなります。(理解間違っていればご指摘ください)

Downloads last month
2,272
Safetensors
Model size
35B params
Tensor type
BF16
·

Finetuned from