Text Generation
Transformers
Safetensors
Japanese
English
llama
text-generation-inference
Inference Endpoints
ddyuudd's picture
Update README.md
237ca1a verified
|
raw
history blame
No virus
2.02 kB
metadata
license: cc-by-4.0
datasets:
  - cyberagent/chatbot_arena_ja_calm2-7b-chat-experimental
language:
  - ja
  - en

Model Card for "calm2-7b-chat-dpo-experimental"

cyberagent/calm2-7b-chatcyberagent/chatbot_arena_ja_calm2-7b-chat-experimentalデータセットを用いてDirect Preference Optimization (DPO)をしたモデルです。 DPOにはLow-Rank Adaptation (LoRA)を用いました。

Requirements, Usage, Chat Template

cyberagent/calm2-7b-chatと同様です。

実験結果

ELYZA-tasks-100 (GPT-4 eval)

実験結果のランダム性を避けるため、greedy searchで出力しました。

calm2-7b-chat calm2-7b-chat-dpo
2.67 2.85

Japanese MT-Bench

以下の文をシステムプロンプト(system_message)としてcalm2-7b-chat-dpoとcalm2-7b-chatの評価を行いました。

"以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"

このシステムプロンプトはstabilityai/japanese-stablelm-instruct-alpha-7bを評価するときに使われるものをそのまま使いました。 他のデコーディングパラメータはデフォルトのままです(ランダム性があります)。

calm2-7b-chat calm2-7b-chat-dpo
平均 6.1 6.7
extraction 4.1 5.4
humanities 8.2 8.4
reasoning 3.9 4.3
roleplay 6.4 7.0
stem 6.3 6.2
writing 7.7 9.1

Author

Yuu Jinnai (jinnai_yu@cyberagent.co.jp), Standing on the shoulders of giants