Aratako
/

Ninja-v1-RP-WIP

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Ninja-v1-RP-WIP / README.md

Aratako's picture

Update README.md

bac3426 verified 3 months ago

|

history blame contribute delete

No virus

2.57 kB

	---
	license: apache-2.0
	datasets:
	- Aratako/Rosebleu-1on1-Dialogues-RP
	- Aratako/LimaRP-augmented-ja-karakuri
	- grimulkan/LimaRP-augmented
	- Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
	- SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed
	- OmniAICreator/Japanese-Roleplay
	language:
	- ja
	library_name: transformers
	tags:
	- roleplay
	base_model:
	- Local-Novel-LLM-project/Ninja-v1-NSFW
	---

	# Ninja-v1-RP-WIP

	## 概要
	[Local-Novel-LLM-project/Ninja-v1-NSFW](https://huggingface.co/Local-Novel-LLM-project/Ninja-v1-NSFW)をロールプレイ用にLoRAでファインチューニングしたモデルです。

	[Aratako/Ninja-v1-RP](https://huggingface.co/Aratako/Ninja-v1-RP)のベースとなるモデルとして利用しています。

	## プロンプトフォーマット
	Vicunaのchat templateを利用してください。また、設定などを渡すシステムプロンプトは最初の`USER: `より前に入力されることを想定しています。

	また、マルチターンの対話を行う場合各ターンのアシスタントの応答の末尾に`eos_token`を必ずつけてください。

	```
	{ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}
	USER: {userの最初の入力}
	ASSISTANT:
	```

	## 学習データセット
	GPTやLlama2等の出力の学習利用時に問題があるモデルを使って作成されたデータセットは一切使っていません。

	### 日本語データセット
	- [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP)
	- [Aratako/LimaRP-augmented-ja-karakuri](https://huggingface.co/datasets/Aratako/LimaRP-augmented-ja-karakuri)
	- [Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja](https://huggingface.co/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja)
	- [OmniAICreator/Japanese-Roleplay](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
	### 英語データセット
	- [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented)
	- [SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed](https://huggingface.co/datasets/SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed)

	## 学習の設定
	RunpodでGPUサーバを借り、A6000x4で学習を行いました。主な学習パラメータは以下の通りです。
	- lora_r: 128
	- lisa_alpha: 256
	- lora_dropout: 0.05
	- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
	- learning_rate: 2e-5
	- num_train_epochs: 3 epochs
	- batch_size: 64
	- max_seq_length: 4096