Skill-Cartridge-0001: The Director's logic (v0.7 Gamma DPO)

Model Details

Model Description

本モデルは、経験豊富なゲームディレクターの設計哲学と論理的思考プロセスをシミュレートするために微調整されたLoRA(Adapter)です。 DPO(Direct Preference Optimization)により、より本質を突き、ユーザーの意図に沿った論理的な回答ができるよう洗練されています。

  • Developed by: InomataAI / inoter
  • Model type: LoRA (Low-Rank Adaptation)
  • Finetuned from model: deepseek-ai/DeepSeek-R1-Distill-Llama-8B
  • Character: 経験豊富なゲームディレクター(論理的、簡潔、本質的)

Uses

Direct Use

ゲームデザインの査定、メカニクスの相談、または制作における哲学的な壁にぶつかった際の「壁打ち相手」として使用します。

推奨される使用方法

RAG(検索拡張生成)と組み合わせることで、より具体的な事例に基づいた回答が可能になりますが、LoRA単体でも「会話履歴(History)」をプロンプトに注入することで、高度な文脈の維持が可能です。

チャット品質の改善

最新の検証により、以下の機能が正常に動作することが確認されています:

  • 文脈の維持: 知識検索(RAG)なしの状態でも、会話履歴を渡すことで、議論した内容を最後まで保持し、最後に要約することが可能です。
  • キャッチボールの徹底: システムプロンプトにより、3行程度の簡潔な回答と、ユーザーへの問いかけを基本としています。
  • インテント判定: 挨拶と質問を切り分け、適切なトーンで回答します。

Training Details

Training Data

公開されている膨大なゲームデザインに関する知見、インタビュー、および設計哲学を元に生成された高品質なQAデータに加え、DPOを用いて、より「ディレクターらしい」判断を好むように追加学習が行われました。

  • 学習形式: DPO (Direct Preference Optimization)
  • 特徴: 矛盾の排除、優先順位の明確化、遊びの本質の探求

注意事項

本モデルは特定の個人を再現するものではなく、あくまで公開されている知見に基づいた「ゲームディレクターという役割」のシミュレーションです。 生成された内容はAIによる推論であり、公式な見解や特定の個人の発言を保証するものではありません。

Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for inoter/Skill-Cartridge-0001

Adapter
(230)
this model