Text Generation
Transformers
Safetensors
Japanese
mistral
conversational
Inference Endpoints
text-generation-inference
Edit model card

Oumuamua-7b-instruct-v2-RP

nitky/Oumuamua-7b-instruct-v2をロールプレイ用にLoRAでファインチューニングしたモデルです。

プロンプトフォーマット

以下のようなchat templateを利用してください。(Alpacaの改変版)

{ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}

### 入力:
こんにちは。

### 応答:
こんにちは!</s>

### 入力:
今日はいい天気ですね。

### 応答:

また、マルチターンの対話を行う場合、各ターンのアシスタントの応答の末尾にeos tokenを必ずつけてください。

学習の設定

RunpodでGPUサーバを借り、A6000x4で学習を行いました。学習データをクオリティの高いものと低いものに2分し、2段階に分けて学習しています。

1回目の学習

まず、比較的クオリティの低いデータセットで1回学習を行いました。 利用データセットは以下の通りです。

学習パラメータは以下の通りです。

  • lora_r: 128
  • lisa_alpha: 256
  • lora_dropout: 0.05
  • lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
  • learning_rate: 2e-5
  • num_train_epochs: 1 epoch
  • batch_size: 32
  • max_seq_length: 4096

2回目の学習

次に、クオリティの高いデータセットで学習を行いました。この2回目の学習は、completion onlyな学習ではなく、instruction部分もloss計算に入れる手法を取り入れています。また、事前学習で使われるようなinstruction形式ではないデータセットも全体の20%程度混ぜています。 利用データセットは以下の通りです。

学習パラメータは以下の通りです。

  • lora_r: 128
  • lisa_alpha: 256
  • lora_dropout: 0.05
  • lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
  • learning_rate: 2e-5
  • num_train_epochs: 3 epochs
  • batch_size: 32
  • max_seq_length: 4096
Downloads last month
16
Safetensors
Model size
7.33B params
Tensor type
BF16
·
Inference API
Input a message to start chatting with Aratako/Oumuamua-7b-instruct-v2-RP.
Model is too large to load in Inference API (serverless). To try the model, launch it on Inference Endpoints (dedicated) instead.

Datasets used to train Aratako/Oumuamua-7b-instruct-v2-RP