Transformers
Safetensors
Japanese
text-generation-inference
unsloth
llama
trl
Inference Endpoints
llm-jp-3-13b-it-dpo / README.md
poprap's picture
Update README.md
aba7058 verified
|
raw
history blame
1.39 kB
---
base_model: llm-jp/llm-jp-3-13b
tags:
- text-generation-inference
- transformers
- unsloth
- llama
- trl
license: apache-2.0
language:
- ja
datasets:
- kinokokoro/ichikara-instruction-003
- kanhatakeyama/wizardlm8x22b-logical-math-coding-sft
- kanhatakeyama/ramdom-to-fixed-multiturn-Calm3
---
# About
このモデルは松尾岩澤研主催、大規模言語モデル2024の最終課題において作成した、dakesan0の最終提出物です。
LLM-jp-3-13bに対して以下のデータセットを用いてSFTを行ったモデルです。
- kinokokoro/ichikara-instruction-003
- kanhatakeyama/wizardlm8x22b-logical-math-coding-sft
- kanhatakeyama/ramdom-to-fixed-multiturn-Calm3
また、DPOも実施しています。タスクはQwen2-72bを用いて作成しました。よってこのモデルはQwen2による改良を受けています。
# How to run inference
サンプルコード(ipynb)がレポジトリに含まれています。
`dakesan0-inference-testcode.ipynb`
# Special thanks
本コンペを運営いただいた方々に深く御礼申し上げます。
サンプルコードや丁寧な解説によりSFT~推論のノウハウを獲得することができました。極めて貴重なナレッジをご提供いただきました。
# License
研究用途に限りApache-2.0(使用したデータセットが非商用利用に限るため)