RWKV x060 6B JPN モデルカード
モデル概要
- モデル名: RWKV x060 6B JPN
- アーキテクチャ: RWKV(Receptance Weighted Key Value)
- 元モデル: x060 7B JPN
- 言語: 日本語
モデル仕様
- パラメータ数: 約6B(60億)
- レイヤー数: 25層(元モデルの32層から7層プルーニング)
- 次元数: 4096次元
蒸留プロセス
- 蒸留データセット: 30,000ペアの蒸留データ
- 学習方法: 元モデルのLogitsからTop-k=100のみを採用
- 学習Epoch: 2
- トレーニング手法: 可変LoRA(Low-Rank Adaptation)
モデル構造詳細
- Embedding層: 凍結
- 出力層(Head): 凍結
- Layer 0: フルパラメータ学習
- Layer 1-24: LoRA(Rank=128)による学習
特徴
- x060 7B JPNからの蒸留モデルであり、元のモデルの性能を維持しつつ、サイズを縮小
- プルーニングとLORAを組み合わせた効率的な学習手法を採用
- 日本語タスクに特化した調整
使用上の注意
- 日本語タスクに最適化されているため、他言語での性能は保証されません
- モデルの出力は人間の監督下で使用し、適切に検証することをお勧めします
ライセンス
[Apache2.0]
引用
[RWKV x060 7B JPN]
連絡先
[OpenMOSE]