Commit
·
4688c1f
1
Parent(s):
3eb2e72
docs: fix image path
Browse files
README.md
CHANGED
|
@@ -9,7 +9,7 @@ base_model: "cyberagent/calm3-22b-chat"
|
|
| 9 |
|
| 10 |
[cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)を学習モデル・データ拡張に用いた自己学習モデルである.
|
| 11 |
[Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し,[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)で学習させた.
|
| 12 |
-
|
| 13 |
|
| 14 |
## Requirements, Usage, Chat Template
|
| 15 |
|
|
@@ -36,7 +36,7 @@ output_ids = model.generate(input_ids,
|
|
| 36 |
```
|
| 37 |
|
| 38 |
## データ拡張プロンプト
|
| 39 |
-
Answer Carefully
|
| 40 |
calm3にこのプロンプト入力することでデータ拡張が可能となる.
|
| 41 |
<details>
|
| 42 |
<summary>データ拡張プロンプト</summary>
|
|
@@ -117,7 +117,7 @@ calm3にこのプロンプト入力することでデータ拡張が可能とな
|
|
| 117 |
```
|
| 118 |
</details>
|
| 119 |
|
| 120 |
-
,**draw**(モデルの出力が参照応答と同等),**lose**(モデルの出力が参照応答を下回る).
|
| 126 |
評価用データのうち,ランダムに抽出した20組を用いて,4人の評価者に評価させた.
|
| 127 |
|
| 128 |
-
を学習モデル・データ拡張に用いた自己学習モデルである.
|
| 11 |
[Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し,[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)で学習させた.
|
| 12 |
+
特に,不適切な質問応答に関するベンチマーク性能を向上させている.
|
| 13 |
|
| 14 |
## Requirements, Usage, Chat Template
|
| 15 |
|
|
|
|
| 36 |
```
|
| 37 |
|
| 38 |
## データ拡張プロンプト
|
| 39 |
+
Answer Carefullyを元にしたデータ拡張に用いたプロンプトである.
|
| 40 |
calm3にこのプロンプト入力することでデータ拡張が可能となる.
|
| 41 |
<details>
|
| 42 |
<summary>データ拡張プロンプト</summary>
|
|
|
|
| 117 |
```
|
| 118 |
</details>
|
| 119 |
|
| 120 |
+

|
| 121 |
|
| 122 |
### human eval
|
| 123 |
|
|
|
|
| 125 |
評価の際には,各応答を次の3つの基準で分類した:**win**(モデルの出力が参照応答を上回る),**draw**(モデルの出力が参照応答と同等),**lose**(モデルの出力が参照応答を下回る).
|
| 126 |
評価用データのうち,ランダムに抽出した20組を用いて,4人の評価者に評価させた.
|
| 127 |
|
| 128 |
+

|
| 129 |
|
| 130 |
|
| 131 |
### Nejumi LLMリーダーボード3
|