poprap
/

llm-jp-3-13b-it-dpo

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

llm-jp-3-13b-it-dpo / README.md

poprap's picture

Update README.md

aba7058 verified 3 months ago

|

1.39 kB

	---
	base_model: llm-jp/llm-jp-3-13b
	tags:
	- text-generation-inference
	- transformers
	- unsloth
	- llama
	- trl
	license: apache-2.0
	language:
	- ja
	datasets:
	- kinokokoro/ichikara-instruction-003
	- kanhatakeyama/wizardlm8x22b-logical-math-coding-sft
	- kanhatakeyama/ramdom-to-fixed-multiturn-Calm3
	---

	# About

	このモデルは松尾岩澤研主催、大規模言語モデル2024の最終課題において作成した、dakesan0の最終提出物です。
	LLM-jp-3-13bに対して以下のデータセットを用いてSFTを行ったモデルです。

	- kinokokoro/ichikara-instruction-003
	- kanhatakeyama/wizardlm8x22b-logical-math-coding-sft
	- kanhatakeyama/ramdom-to-fixed-multiturn-Calm3

	また、DPOも実施しています。タスクはQwen2-72bを用いて作成しました。よってこのモデルはQwen2による改良を受けています。

	# How to run inference

	サンプルコード(ipynb)がレポジトリに含まれています。
	`dakesan0-inference-testcode.ipynb`

	# Special thanks

	本コンペを運営いただいた方々に深く御礼申し上げます。
	サンプルコードや丁寧な解説によりSFT～推論のノウハウを獲得することができました。極めて貴重なナレッジをご提供いただきました。

	# License

	研究用途に限りApache-2.0（使用したデータセットが非商用利用に限るため）