Safetensors
aixsatoshi commited on
Commit
94a3267
1 Parent(s): 328f0b8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -15
README.md CHANGED
@@ -5,21 +5,22 @@ license: cc-by-4.0
5
  Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。
6
 
7
  注:bf16での使用を想定しています。
8
- 量子化推論する場合は、bf16で読み込んだ状態でLora適応、またはマージ、その後に量子化してください。
9
 
10
  **目的**
11
 
12
- Mixtral-8x7Bは優秀な言語モデルですが、日本語のアウトプットに、多言語が混入するcode-switchingがよく見られます。
13
- 元の性能を維持しながら、日本語生成を安定させる方法としてLoraの効果を検証しました。
14
 
15
  **学習データセット**
16
 
17
  学習データセットとして、下記のDPOデータセットを使用しています。
18
- 今回は、chosenのデータを使用しsft学習しています。
19
 
20
  Chatbot Arena Conversations JA (calm2) Dataset
21
- lmsys/chatbot_arena_conversationsのユーザ入力(CC-BY 4.0)を和訳
22
- 和訳にはfacebookの翻訳モデル(MIT License)が使用されています。
 
23
  [cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)
24
 
25
  **evaluation**
@@ -69,15 +70,7 @@ num_fewshot: 2, batch_size: 1
69
  |jaqket_v2-0.1-0.3| 0.1|exact_match|67.9553| | |
70
  | | |f1 |78.7550| | |
71
 
72
- **考察**
73
-
74
- 追加の事前学習なく安定した日本語出力が可能となったのは以下の作用と考えました。
75
- 未学習のモデルでは、日本語のシグナルが弱く言語選択が不安定になっていると推測されます。
76
- Loraのみでも日本語コードへのバイアスを一定レベル強めることが可能となり、
77
- もともと学習していた日本語のシグナルを抽出しやすくなったと考えられました。
78
 
79
  **その他**
80
 
81
- 他の言語も出力可能でした。
82
- 学習時のcontext長は4096tokenまでですが、4k token以上の出力も可能です。
83
- 一定以上の出力すると、その後のtokenの日本語バイアスが安定するのかもしれないです。
 
5
  Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。
6
 
7
  注:bf16での使用を想定しています。
8
+ 量子化推論する場合は、bf16でモデルを読み込んだ状態でLora適応またはマージ、その後に量子化してください。
9
 
10
  **目的**
11
 
12
+ Mixtral-8x7Bは高性能な言語モデルですが、日本語出力に多言語が混入するcode-switchingがよく見られます。
13
+ 元の性能を維持しながら、日本語生成を安定させる方法として、Loraの効果を検証しました。
14
 
15
  **学習データセット**
16
 
17
  学習データセットとして、下記のDPOデータセットを使用しています。
18
+ DPO trainingはVRAM消費が多く、今回はchosenのデータを使用したsft学習しています。
19
 
20
  Chatbot Arena Conversations JA (calm2) Dataset
21
+ 指示文 : [lmsys/chatbot_arena_conversations](https://huggingface.co/datasets/lmsys/chatbot_arena_conversations)のユーザ入力(CC-BY 4.0)を利用。
22
+ 指示文の和訳 : [facebookの翻訳モデル(MIT License)](https://huggingface.co/facebook/wmt21-dense-24-wide-en-x)が使用されています。
23
+ 応答文 : calm2-7b-chat(Apache 2.0)の出力です。
24
  [cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)
25
 
26
  **evaluation**
 
70
  |jaqket_v2-0.1-0.3| 0.1|exact_match|67.9553| | |
71
  | | |f1 |78.7550| | |
72
 
 
 
 
 
 
 
73
 
74
  **その他**
75
 
76
+ Lora学習時のcontext長は4096tokenまでですが、4k token以上の出力も可能です。