cyberagent
/

calm3-22b-chat-selfimprove-experimental

Model card Files Files and versions

Mitsuki-Sakamoto commited on Feb 12

Commit

4688c1f

·

1 Parent(s): 3eb2e72

docs: fix image path

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ base_model: "cyberagent/calm3-22b-chat"
 [cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)を学習モデル・データ拡張に用いた自己学習モデルである．
 [Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し，[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)で学習させた．
-特に，不適切な質問応答に関するベンチマーク性能を向上させている．．
 ## Requirements, Usage, Chat Template
@@ -36,7 +36,7 @@ output_ids = model.generate(input_ids,
 ```
 ## データ拡張プロンプト
-Answer Carefullyをデータ拡張に用いたプロンプトである．
 calm3にこのプロンプト入力することでデータ拡張が可能となる．
 <details>
 <summary>データ拡張プロンプト</summary>
@@ -117,7 +117,7 @@ calm3にこのプロンプト入力することでデータ拡張が可能とな
 ```
 </details>
-![eval_image](/img/eval_gpt4.png)
 ### human eval
@@ -125,7 +125,7 @@ calm3にこのプロンプト入力することでデータ拡張が可能とな
 評価の際には，各応答を次の3つの基準で分類した：**win**（モデルの出力が参照応答を上回る），**draw**（モデルの出力が参照応答と同等），**lose**（モデルの出力が参照応答を下回る）．
 評価用データのうち，ランダムに抽出した20組を用いて，4人の評価者に評価させた．
-![eval_image](/img/eval_human.png)
 ### Nejumi LLMリーダーボード3

 [cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)を学習モデル・データ拡張に用いた自己学習モデルである．
 [Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し，[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)で学習させた．
+特に，不適切な質問応答に関するベンチマーク性能を向上させている．
 ## Requirements, Usage, Chat Template
 ```
 ## データ拡張プロンプト
+Answer Carefullyを元にしたデータ拡張に用いたプロンプトである．
 calm3にこのプロンプト入力することでデータ拡張が可能となる．
 <details>
 <summary>データ拡張プロンプト</summary>
 ```
 </details>
+![eval_image](img/eval_gpt4.png)
 ### human eval
 評価の際には，各応答を次の3つの基準で分類した：**win**（モデルの出力が参照応答を上回る），**draw**（モデルの出力が参照応答と同等），**lose**（モデルの出力が参照応答を下回る）．
 評価用データのうち，ランダムに抽出した20組を用いて，4人の評価者に評価させた．
+![eval_image](img/eval_human.png)
 ### Nejumi LLMリーダーボード3